正如 OpenStack 日 渐 成 为 


手 一 战 。Ceph 爱 好 者 们 ， 请 启动 机 器 ， 拿 起 本 书 ， 早 日 踏 上 Ceph 专 家 之 路 。 


Ceph 是 主流 的 开源 分 布 式 存储 操作 系统 。 我 们 看 到 越 来 越 多 的 云 服 务 商 和 企业 F 
明 地 解决 了 数据 分 布 效 率 问题 ， 英 定 了 它 胜任 各 种 规模 存储 池 集 群 的 坚实 基础 。 过 去 5 


一 一 陈 绪 ， 博 士 ， 英 特 尔 中 国 云 计 算 战略 总 监 ， 


Tii 


户 开 始 考察 Ceph， 把 它 作为 构建 


件 兼 容 性 体系 ， 大 量 上 下 游 厂 商 添砖加瓦 ， 也 吸引 了 很 多 运营 商 、 企 业 


源 云 计 算 的 标准 软件 栈 ，Ceph 也 被 誉 为 软件 定义 存储 开源 项 目的 领头 羊 。 细 品 本 书 ， 慢 嗅 “ 基 础 理论 讲解 简明 扼要 ， 技 术 实战 阐述 深入 全 面 ” 之 清香 。 干 言 万 语 ， 不 如 动 


信 进 联盟 常务 副 秘 书 长 ，2015 年 中 日 韩 东北 亚 开源 论坛 最 高 奖项 “特别 贡献 奖 ”获得 者 


“统一 存储 ”和 “软件 定义 存储 ”的 可 信和 赖 解决 方案 。Ceph 的 CRUSH 算 法 引擎 ， 聪 
F， 在 Red Hat、Intel 等 软 硬 件 基础 设施 领导 者 的 推动 下 ，Ceph 开 源 社 区 有 超过 10 信 的 增长 一 一 不 仅仅 具备 广泛 的 硬 


国 社区 撰写 的 本 书 的 问世 ， 这 是 一 部 在 立意 和 有 3 


Ceph 中 国 社区 在 推进 开源 事业 的 道路 上 取得 更 大 的 成 功 ! 


在 开源 软件 定义 存储 (SDS) 领域 ，Ceph 是 当之无愧 的 王者 项 
举 。 跟 大 多 数 开源 软件 项 目 一 样 ，Ceph 具 有 优秀 的 技术 特性 ， 但 也 存在 着 部 署 
这 一 开源 技术 。 长 期 以 来 ， 中 文 技术 社 


SDS，Ceph 成 为 了 他 们 的 第 一 选 
佳 实践 有 一 定 了 解 ， 才 能 在 生产 环境 中 稳定 使 
上 对 Ceph 的 核心 技术 进行 了 讲解 ， 


laaS 开 发 人 员 必 备 的 一 本 SDS 工 : 


户 参 与 改进 。XSKY 很 荣幸 作为 社 
面 均 不 输 于 同期 几 本 英文 书籍 的 


区 的 一 员 ， 见 证 与 实践 着 Ceph 帮 助 用 户 进行 存储 基础 架构 革新 的 历程 。 我 们 欣喜 地 看 到 由 Ceph 中 
作品 ， 深 入 浅 出 ， 娓 娓 道 来 ， 凝 结 了 作者 的 热情 和 心血 。 我 们 诚挚 地 向 业内 技术 同行 和 Ceph 潜 在 用 户 推荐 此 书 ! 愿 


— RW, XSKYZ RR (dU) 数据 科技 有 限 公司 CEO 


。 随 着 laaS 技 术 的 火热 发 


开源 系统 是 Linux 的 世界 ， 


已 经 开始 在 生产 环境 中 大 量 部 署 Ceph，Ceph 也 表现 出 卓越 的 稳定 性 和 性 能 。 但 是 Ceph 的 搭建 和 使 有 


区 一 直 没 有 一 本 对 Ceph 


始 在 生产 环境 中 部 署 SDS。 伴 随 着 基础 设施 开源 化 的 趋势 ， 很 多 用 户 希 望 部 署 开源 的 
难 、 运 维 难 的 问题 。 在 使 用 开源 Ceph 发 行 版 时 ， 用 户 需要 对 Ceph 的 实现 原理 、 部 署 运 维 最 
的 原理 、 生 产 实 践 、 运 维 实践 进行 剖析 的 好 书 ， 本 书 的 出 现 填补 了 这 一 空白 。 该 书 不 仅 从 原理 
还 介绍 了 将 Ceph 部 署 在 OpenStack、ZStack 等 laas 软 件 上 的 生产 环境 实践 ， 最 后 着 重 介绍 了 Ceph 的 运 维和 排 错 ， 是 一 本 不 可 多 得 的 Ceph 百 科 全 书 ， 是 Ceph 用 户 、 


一 一 张 爹 ， 前 CloudStack 核 心 初创 人 员 ， 开 源 IaaS 项 目 ZStack 创 始 人 


源 管理 平台 是 Openstack 的 世界 ， 开 源 存储 是 Ceph 的 世界 。 软 件 定义 存储 (SDS) 是 存储 发 展 的 必然 趋势 ， 最 好 的 开源 软件 定义 存储 方案 无 疑 就 是 Ceph， 我 身边 好 多 朋友 


门槛 比较 高 ， 很 高 兴 看 到 Ceph 中 国 社区 组 织 编写 的 本 书 的 出 版 ， 为 Ceph 搭 建 学 习 降低 了 门 榄 ， 是 国内 


Ceph 爱 好 者 的 福音 。Ceph 中 国 # 


的 普及 做 了 大 量 非 常 


Ceph 作 为 分 布 式 存储 开源 项 目的 杰出 代表 ， 在 各 个 领域 已 经 得 到 了 充分 验证 ， 


要 的 工作 ， 本 书 是 一 个 里 程 碑 ， 相 信 Ceph 中 国 


社区 会 继续 为 Ceph 做 出 更 多 的 贡献 。 


理 和 实践 多 个 层面 进行 了 详尽 讲解 ， 是 一 本 快速 了 解 并 掌握 Ceph 的 力作 。 


软件 看 开源 ，SDS 看 Ceph。Ceph 是 目前 影响 力 最 大 的 


很 荣幸 能 在 第 一 时 间 读 到 这 本 书 ， 该 书 从 Ceph 的 部 署 开 始 ， 


尤其 是 最 后 的 生产 环境 应 用 案例 ， 解 了 使 


可 以 预见 ， 在 未 来 的 几 全 


一 一 肖 力 ，KVM 云 技术 社区 创始 人 


FH 肝 间 内 ，Ceph 一 定 会 得 到 更 广泛 的 应 用 。 本 书 作为 国内 为 数 不 多 阐述 Ceph 的 著作 ， 从 基础 、 原 


一 一 孙 琦 (Ray) ， 北 京 休 伦 科 技 有 限 公 司 CTO 


源 软件 定义 存储 解决 方案 ， 其 


阐明 了 Ceph 各 个 3 
Ceph 的 技术 人 员 的 燃眉之急 ， 给 出 了 常见 问题 | 


块 存储 、 文 件 存储 和 对 象 存储 ， 广 泛 被 业界 公司 所 采用 。 


绍 了 Ceph 在 块 存储 、 文 件 存储 和 对 象 存储 不 同 场景 下 的 应 用 方式 ， 指 明了 Ceph 性 能 调 优 的 方案 。 
造福 于 整个 开源 云 存 储 界 。 


无 论 是 售 前 专家 、 开 发 架构 师 还 是 运 维 负责 人 ， 读 一 读 Ceph 中 国 社区 编写 的 这 本 书 ， 都 可 以 细 细 地 品 一 品 ， 积 极地 拥抱 开源 、 把 握 云 存储 的 未 来 。 


一 一 楼 炜 ， 盘 古 数据 资深 云 和 大 数据 架构 师 


作为 一 名 早期 研究 Ceph 的 人 员 ， 很 高 兴 看 到 Ceph 在 近 几 年 如 火 如 茶 的 发 展 状态 。 在 我 刚 接触 Ceph 时 ， 很 渴望 得 到 系统 化 的 介绍 、 培 训 或 指导 。 但 当时 Ceph 在 国内 还 处 于 小 众 研究 状态 ， 高 人 难 寻 ， 


深入 全 面 的 介绍 资料 更 是 没有 。Ceph 中 


Ceph 因 其 先进 的 设计 思想 ， 良 好 的 可 
全 书 从 Ceph 的 历史 、 架 构 、 原 理 到 部 署 、 运 维 、 应 | 


从 实用 价值 上 看 ， 本 书 从 Ceph 的 基本 原理 、Ceph 的 安装 部 署 和 Ceph 的 应 上 


从 理论 价值 上 看 ，Ceph 是 超 融 合 架构 下 首选 的 开源 存储 方案 ， 本 书 详细 阐述 了 存储 相关 的 


Ceph 是 当前 最 热门 的 分 布 式 存储 系统 ， 在 云 技术 领域 获得 了 广泛 的 欢迎 和 支持 。 但 是 目前 
么 现在 救星 来 了 ! 本 书 从 系统 原理 、 基 本 架构 、 性 能 优化 、 应 


靠 性 、 可 扩 


社区 的 朋友 们 出 版 这 本 介绍 Ceph 的 书籍 ， 为 Ceph 的 广大 研究 者 和 爱好 者 做 了 一 件 很 有 意义 的 事情 。 相 信 本 书 一 定 能 够 成 为 Ceph 发 展 的 强力 助 推 器 ! 


展 性 ， 成 为 存储 领域 的 研究 热点 ， 被 誉 为 “存储 的 未 来 ” 


温 涛 ， 新 华 三 集团 (H3C 公 司 ) ONEStor 产 品 研发 负责 人 


， 得 到 广泛 的 部 署 。 由 Ceph 中 国 社区 组 织 编写 的 这 本 书 是 国内 第 一 本 系统 介绍 Ceph 的 书籍 ， 


案例 ， 讲 解 全 面 深入 ， 可 操作 性 强 。 本 书 非常 适合 想 要 了 解 Ceph、 使 用 Ceph 的 读者 阅读 ， 也 可 供 分 布 式 存储 系统 设计 者 参考 。 


进行 了 深入 浅 出 的 讲解 ， 


本 原理 ， 不 仅 让 你 知 其 然 ， 更 能 让 你 知 其 所 以 然 。 


一 群 开源 的 人 用 开源 的 方式 去 做 一 件 开源 的 事 儿 ， 我 想 没有 比 这 更 合适 的 
已 经 十 几 岁 的 Ceph 在 众人 之 力 和 和 


Ceph 是 每 一 个 软件 定义 存储 相关 从 业 人 员 关 注 的 重点 ，Ceph 中 国 社区 把 国 


， 吐 故 纳 新 ， 正 以 日 新 月 异 


的 发 展 扮演 着 非常 重要 的 推动 作 


杉 岩 数据 作为 一 家 商用 Ceph 


Ceph 从 2012 年 开始 拥抱 OpenStack 到 现在 已 经 成 为 OpenStack 的 首选 
要 的 推动 和 落地 作用 。 也 一 直 期 得 


limi 


， 非 常 感谢 Ceph 中 


解决 方案 和 服务 提供 商 ， 随 着 Ceph 商 
Ceph 的 功能 特性 。 当 我 有 幸 阅读 过 此 书后 ， 我 强烈 建议 广大 SDS 相 关 从 业 人 员 阅 读 此 书 ， 你 一 定 会 收获 良 多 ! 


实践 、 运 维 部 署 等 各 个 方 


情 了 。 作 为 一 名 有 着 近 10 生 


内 广大 的 Ceph 爱 好 者 聚集 到 一 起 ， 分 享 


国 社区 的 每 一 位 贡献 者 。 


汪 黎 ，KylinCloud 团 队 存储 技术 负责 人 ，Ceph 代 码 贡 献 者 


时 论 和 实践 完美 结合 ， 是 难得 的 系统 阐述 Ceph 的 教科 书 ， 是 广大 Ceph 爱 好 者 的 福音 。 


一 一 刘 军 卫 ， 中 国 移动 苏州 研发 中 心 云 计算 产品 部 技术 总 监 


蛋 内 与 此 相关 的 书籍 非常 少 。 如 果 想 学 习 Ceph， 想 更 深入 地 了 解 Ceph， 而 又 对 密密麻麻 的 英文 望而生畏， 那 
对 Ceph 进 行 了 全 方位 的 介绍 和 分 析 。 这 是 一 本 从 入 门 到 精通 的 好 书 ， 值 得 拥有 ! 


李响 ， 博 士 ， 中 兴 通 讯 股 份 有 限 公司 IaaS 开 源 项 目 总 监 


的 分 布 式 存储 研发 和 软件 定义 存储 (SDS) 产品 及 技术 规划 的 先行 者 与 践 行者 ， 很 高 兴 看 到 同样 


“ 踩 坑 ” 的 经 验 ， 承 担 了 95% 以 上 Ceph 文 档 的 本 土 化 (翻译) 工作 ， 对 Ceph 在 医 


图 
5 


产品 越 来 越 多 地 在 企业 级 


， 一 直 期 待 能 有 一 本 适合 国人 阅读 习惯 且 浅 显 易 懂 的 Ceph 书 籍 ， 让 更 多 的 人 了 解 


一 一 陈 坚 ， 深 圳 市 杉 岩 数据 技术 有 限 公司 总 经 理 


内 能 有 一 本 Ceph 入 门 相关 的 书籍 ， 看 到 Ceph 中 国 | 


后 端 存 储 。 很 


大 的 Ceph 爱 好 者 聚集 到 一 起 ， 分 享 技术 与 经 验 ， 对 Ceph 在 国内 的 发 展 起 到 了 非常 


区 出 版 的 这 本 书 ， 很 是 欣慰 。 


国内 Ceph 资 料 从 稀缺 到 逐渐 完善 ， 这 其 中 离 不 开 Ceph 中 国 社区 的 贡献 和 努力 。 


内 第 一 本 对 Ceph 进 行 全 面 


Ceph 是 开源 分 布 式 存储 领域 的 一 颗 当 红 明 星 ， 随 着 OpenStack 如 火 如 茶 的 发 
本 书 填补 了 国内 Ceph 的 空白 ， 是 国内 Ceph 爱 好 者 的 福音 。 


剖析 的 书籍 ， 并 辅 以 大 量 的 实战 操作 ， 内 容 由 浅 入 深 ， 特 别 适 合 希望 对 Ceph 进 行 系统 性 学 习 的 工程 师 ， 是 国 


展 ，Ceph 也 逐渐 成 为 了 OpenStack 的 首选 后 端 存储 。 


一 一 朱 荣 泽 ， 上 海 优 铭 云 计算 有 限 公 司 存储 架构 师 


HI 


由 于 其 出 色 的 系统 设计 ，Ceph 正 广泛 部 署 


了 Ceph 的 编程 接 


、 上 线 部 署 、 性 能 调 优 及 应 有 


场景 ， 有 利 


各 大 云 计 算 厂商 的 生产 环境 中 ， 为 上 
读者 快速 掌握 Ceph 的 


Ceph 诞 生 了 
要 “与 时 俱 进 ”， 继 续 改 进 和 完善 ， 满 足 目 标 用 户 越 来 越 高 的 要 求 。 

众所周知 ，Ceph 是 个 开源 项 目 ， 成 型 于 硬盘 仍 为 主导 的 年 代 。 如 今 ， 市 场 和 用 户 需 
中 间 


运 维和 基于 Ceph 的 


Ceph 更 加 产品 化 ， 同 时 充分 利 
层 ， 并 为 Ceph 加 入 新 的 功能 和 特性 ， 对 此 ， 我 个 人 归纳 为 “ 先 做 减法 ， 再 做 加 法 ”。 要 达到 上 述 目标 ， 必 须 让 更 多 的 人 关注 


前 缺乏 Ceph 入 门 以 及 相关 运 维 书 籍 ，Ceph 中 


内 Ceph 爱 好 者 的 福音 。 


一 一 田亮 ， 北 京 海 云 捷 迅 科技 有 限 公司 解决 方案 总 监 


国 社区 出 版 的 这 


一 一 陈 沙 克 ， 浙 江 九 州 云 信息 科技 有 限 公 司 副 总 裁 


传统 存储 行业 正 处 于 巅峰 之 时 ， 短 短 十 多 年 间 ， 闪 存 (如 SSD) 与 软件 定义 存储 (SDS) 就 联手 颠覆 了 存储 行业 。 作 为 软件 定义 存储 领域 的 旗帜 性 项 


圈 。 作 为 一 本 不 可 多 得 的 系统 介绍 Ceph 的 书籍 ， 本 书 的 出 版 正 着 其 时 ， 定 会 为 Ceph 生 态 的 壮大 贡献 更 多 的 有 生 力 量 。 


Ceph 是 目前 
社区 之 一 ,而 Ceph 中 


Es 


序 


闪存 等 


社区 正 是 背后 的 驱动 力 之 一 。 从 2015 年 开始 ，Ceph 中 


Hr 


的 魅力 。 在 过 去 的 10 


FE， 开源 世界 慢 慢 成 为 了 IT 创 新 的 动力 ， 而 这 10 稀 


大 缺失 ， 而 这 些 “ 沟 妄 ”需要 像 Ceph 中 


I| 


Ceph 中 


国 


的 “礼物 ”， 本 书 是 多 位 Ceph 实 战 者 在 Ceph 集 群 运 维和 问题 讨论 中 形成 的 经 验 和 锦 圳 之 集合 。 


T 


读者 真正 零 距 离 地 接触 并 使 用 它 。 


随 着 信息 化 浪潮 的 到 来 ， 全 球 各行 各 业 逐 步 借助 信息 技术 深入 发 展 。 


亿 块 4TB 硬 盘 ， 数 


为 什么 写 这 本 书 


目前 ,磁盘 具备 容量 优势 ， 固 态 硬 盘 


备 速度 优势 。 但 能 否 让 容量 和 性 能 不 


F 也 是 国 
社区 这 样 的 组 织 来 弥补 。 我 很 欣喜 


源 世界 在 存储 领域 的 里 程 碑 式 项 目 ， 它 所 带 来 的 分 布 式 、 无 中 心 化 设计 是 目前 


众多 商 | 


国 社区 一 


直 努 力 在 


Ea 


内 技术 爱好 者 受益 于 开源 的 


前 


毫 不 夺 张 地 说 ， 本 书 是 我 目前 看 到 的 最 棒 的 Ceph 入 门 工 : 


niil 


分 布 式 存储 模仿 和 学 习 


[E] 


户 提供 对 象 存储 、 云 硬盘 和 文件 系统 存储 服务 。 本 书 理论 联系 实际 ， 除 介绍 Ceph 的 设计 理念 和 原理 之 外 ， 还 系统 介绍 
发 。 此 书 提 供 了 深入 理解 云 存储 的 捷径 。 


一 一 吴兴 义 ， 乐 视 云 技术 经 理 


，Ceph 肩 负 着 业界 的 厚望 ， 也 需 


态 存储 介质 带 来 的 性 能 红利 。 这 就 要 求 业 界 精简 过 时 的 代码 和 不 必要 的 
0 了 解 Ceph， 特 别 是 吸引 有 一 定 存储 经 验 和 积累 的 人 或 组 织 加 入 Ceph 生 态 


一 一 张 广 彬 ， 北 京 企 事 录 技术 服务 公司 创始 人 


的 对 象 ，Ceph 社 区 经 过 十 多 年 
内 普及 Ceph 的 生态 ， 并 为 广大 Ceph 爱 好 者 提供 了 交流 平台 ， 


发 展 已 经 成 为 近 几 年 参与 度 增长 最 快 的 开源 
使 得 众多 开源 爱好 者 能 够 进一步 了 解 Ceph 


最 好 时 间 。 但 是 ， 从 开 ) 


原 爱好 者 到 社区 的 深度 参与 方面 ， 尤 其 是 在 世界 级 开源 项 目 上 ， 我 们 还 存在 


也 看 到 Ceph 中 国 社区 能 在 最 合适 的 时 间 成 立 并 迅速 成 长 ， 而 且 受 到 Ceph 官 方 社区 


的 认可 。 


社区 从 论坛 的 搭建 ， 微 信 群 的 建立 ， 公 众 号 的 众 包 翻译 和 文章 分 析 ， 到 活动 的 组 织 都 体现 了 一 个 开源 社区 最 富有 活力 的 价值 。 本 书 正 是 Ceph 中 国 社 


区 给 国 


内 Ceph 爱 好 者 的 一 份 正当 其 时 


据悉 ， 企 业 及 互联 网 数 拉 
居 结 构 的 变化 给 存储 系统 带 来 了 全 新 的 挑战 。 那 么 有 什么 方法 能 够 存储 这 些 数 


ELS 
E? 我 认为 Ceph 是 解决 未 来 十 入 


FE50% 的 速率 在 增长 。 据 权威 调查 机 构 Gartner 预 测 ， 到 2020 年 ， 全 球 数 


P, 


可 以 帮助 对 分 布 式 存储 或 者 Ceph 不 太 熟悉 的 


Iži 


E 


2016 年 9 月 8 日 


居 量 将 达到 35ZB， 相 当 于 80 


HDD) 。 磁 盘 阵列 技术 是 一 种 把 多 块 独立 的 硬盘 按 不 同 的 方式 组 合 起 来 形成 一 个 硬盘 组 (Disk Group， 又 称 Virtual Disk) ， 从 而 提供 比 和 


可 提供 多 块 硬盘 读 写 的 聚合 能 力 ， 又 能 提供 硬盘 故障 的 容错 能 力 。 


镜像 技术 (Mirroring) 又 称 为 复制 技术 


提供 高 可 


传统 的 磁盘 阵列 技术 的 关注 点 在 于 数据 在 
技术 和 纠 删 码 技术 基于 服务 器 节点 的 粒度 实现 


局 限 在 一 个 存储 器 


(Replication) ， 可 提供 数 


磁盘 上 的 分 发 方式 ， 随 着 通 


磁盘 、 


通 


后 ， 这 些 技术 的 特点 不 再 


局 


分 布 式 存储 解决 了 数据 体 量 问题 ， 对 应 
存储 广泛 地 应 用 于 航天 、 航 空 、 石 油 、 科 研 、 


Ceph 是 加 州 大 学 圣 克 鲁 效 分 校 的 Sage Weil 博 士 论文 的 研究 项 目 ， 是 一 个 使 
(Software Defined Storage, SDS) 。 它 为 块 存储 、 文 件 存 储 和 对 象 存储 提供 了 统一 的 软件 定义 解决 方案 。Ceph 旨 在 提供 一 个 扩展 性 强大 、 性 能 优越 且 无 和 


就 被 设计 为 能 在 通 


商业 硬件 上 高 度 扩展 。 


程序 提供 标准 统一 的 访问 
政务 、 


RFÈ 


居 匈 余 性 和 高 可 用 性 ; 条 带 (Striping) ， 可 提供 并 行 的 数 
性 和 高 速 读 写 能 力 。 镜 像 、 条 带 和 纠 删 码 是 磁盘 阵列 技术 经 典 的 数据 分 发 方式 ， 这 3 种 经 典 的 磁盘 技术 可 通过 组 合 方式 提供 更 加 丰富 的 数据 读 写 性 能 


服务 器 ， 以 及 高 速 网 络 的 成 本 降低 ， 使 数据 在 磁盘 上 的 分 发 扩 


a 个 设备 的 性 能 ， 而 是 


备 “ 横 向 扩 


区 


接 入 ， 既 能 提升 数据 安全 性 和 可 靠 性 ， 又 能 提高 存储 整体 容量 和 性 能 。 
医疗 、 视 频 等 高 性 能 计算 、 云 计算 和 大 数据 处 理 领 域 。 目 前 行业 应 


元 呢 ? 我 们 很 快 联 想到 磁盘 阵列 技术 (Redundant Array of Independent Disk，RAID， 不 限于 


数据 存储 需求 的 一 个 可 行 方案 。Ceph 是 存储 | 


ORK! SDS 是 存储 的 未 来 ! 


对 分 布 式 存储 技术 需求 旺盛 ， 其 


居 吞 吐 能 力 ; £j 


a 个 硬盘 更 高 的 存储 性 能 与 数据 备份 能 力 的 技术 。 磁 盘 阵 允 


J43 (Erasure Code) ， 把 数 


展 到 在 服务 器 节点 上 的 分 发 成 为 可 能 。 
”能 力 。 我 们 暂且 认为 这 是 分 布 式 存储 本 质 的 体现 。 


技术 既 


居 切 片 并 增加 宛 余 编 码 而 


Bo 


镜像 技术 、 条 带 


可 以 预见 ， 分 布 式 存储 是 大 规模 存储 的 一 个 实现 方向 。 分 布 式 
处 于 快速 发 展 阶段 。 


由 开源 协议 (LGPLv2.1) 的 分 布 式 存储 系统 。 


目前 Ceph 已 经 成 为 整个 开源 存储 行业 最 热门 的 软件 定义 存储 技术 


点 故障 的 分 布 式 存储 系统 。 从 一 开始 ，Ceph 


由 于 其 开放 性 、 可 扩展 性 和 可 靠 性 ，Ceph 成 为 了 存储 行业 中 的 撼 楚 。 这 是 云 计算 和 软件 定义 基础 设施 的 时 代 ， 我 们 需要 一 个 完全 软件 定义 的 存储 ， 更 重要 的 是 它 要 为 云 做 好 准备 。 无 论 运行 的 是 公有 
云 、 私 有 云 还 是 混合 云 ，Ceph 都 非常 合适 。 国 内 外 有 不 少 的 Ceph 应 用 方案 ,例如 美国 雅虎 公司 使 用 Ceph 构 建 对 象 存 储 系统 ， 用 于 Flickr、 雅 虎 邮 箱 和 Tumblr ( 轻 量 博客 ) 的 后 端 存储 ; 国内 不 少 公有 云 和 


私有 云 商 选 择 Ceph 作 为 云 主机 后 端 存储 解决 方案 。 


如 今 的 软件 系统 已 经 非常 智能 ， 可 以 最 大 限度 地 利用 商业 硬件 来 运行 规模 庞大 的 基础 设施 。Ceph 就 是 其 中 之 一 ， 它 明智 地 采用 商业 硬件 来 提供 企业 级 稳固 可 靠 的 存储 系统 。 


Ceph 已 被 不 断 完善 ， 并 融入 以 下 建设 性 理念 。 


“ 每 个 组 件 能 够 线性 扩展 。 


:无 任何 单 故障 点 。 


“ 解决 方案 必须 是 基于 


软件 的 、 开 源 的 、 适 应 性 强 的 。 


“ 运行 于 现 有 商业 硬件 之 上 。 


“ 每 个 组 件 必须 尽 可 能 拥有 自我 管理 和 自我 修复 能 力 。 


对 象 是 Ceph 的 基础 ， 它 也 是 Ceph 的 构建 部 件 ， 并 且 Ceph 的 对 象 存储 4 


民 好 地 满足 了 当下 及 将 来 非 结构 化 数据 的 存储 需求 。 相 比 传统 存储 解决 方案 ， 对 象 情 存 有 其 独特 优势 : 我 们 可 以 使 用 对 象 存储 实现 


平台 和 硬件 独立 。Ceph 谨 慎 地 使 用 对 象 ， 通 过 在 集群 内 复制 对 象 来 实现 可 用 性 ; 在 Ceph 中 ， 对 象 是 不 依赖 于 物理 路 径 的 ， 这 使 其 独立 于 物理 位 置 。 这 种 灵活 性 使 Ceph 能 实现 从 PB (petabyte) 级 到 


EB (exabyte) 级 的 线性 扩 


展 。 


Ceph 性 能 强大 ， 具 有 超 强 扩展 性 及 灵活 性 。 它 可 以 帮助 用 户 摆脱 昂贵 的 专 有 存储 孤岛 。Ceph 是 真正 在 商业 硬件 上 运行 的 企业 级 存储 解决 方案 ; 是 一 种 低 成 本 但 功能 丰富 的 存储 系统 。Ceph 通 用 存储 系 


统 同 时 提供 块 存储 、 文 件 存储 和 对 象 存储 ， 使 客户 可 以 按 需 使 用 。 


由 于 国内 许多 企业 决策 者 逐渐 认识 到 Ceph 的 优势 与 前 景 ， 越 来 越 多 来 自 系统 管理 和 传统 存储 的 工程 师 使 用 Ceph， 并 有 相当 数量 的 企业 基于 Ceph 研 发 分 布 式 存储 产品 ， 为 了 更 好 地 促进 Ceph 在 国内 传 
向 国内 关注 Ceph 技 术 的 同行 提供 信息 交流 和 共享 平台 。 但 是 ， 由 于 信息 在 传递 过 程 中 过 于 
分 散 ， 偶 尔 编写 的 文档 内 容 并 不 完整 ， 导 致 初学 者 在 学 习 和 使 用 Ceph 的 过 程 中 遇 到 不 少 疑 惑 。 同 时 ， 由 于 官方 文档 是 通过 英文 发 布 的 ， 对 英语 不 太 熟悉 的 同行 难于 学 习 。 鉴 于 此 ，Ceph 中 国 社区 组 织 技术 
爱好 者 编写 本 书 ， 本 书 主要 提供 初级 和 中 级 层面 的 指导 。 根 据 调 查 反馈 以 及 社区 成 员 的 意见 ， 我 们 确定 了 本 书 内 容 。 


播 和 技术 交流 ， 我 们 几 个 爱好 者 成 立 了 Ceph 中 国 社 区 。 目 前 ， 通 过 网 络 交流 群 、 消 息 内 容 推送 和 问答 互动 社区 ， 


本 书 特色 


在 本 书 中 ， 我 们 将 采 


穿插 方式 讲述 Ceph 分 布 式 存储 的 原理 与 实战 。 本 书 侧 本 


不 断 学 习 、 不 断 深入 。 我 希望 ， 到 本 书 的 结尾 ， 读 者 不 论 在 概念 上 还 是 实战 上 ， 都 能 够 成 功 驾 驭 Ceph。 每 个 章节 


行 实战 操作 。 这 样 ， 一 来 读 


者 不 会 对 基础 理论 知识 感到 困 


加 深 理解 ， 也 可 以 加 入 Cep 


读者 对 象 


本 书 适用 于 以 下 读者 。 


- Ceph 爱 好 者 。 
“ 云 平台 运 维 工程 师 。 


“ 存储 系统 工程 师 。 


h 中 国 社区 QQ 群 (239404559) 进行 技术 讨论 。 


“ 高 等 院 校 的 学 生 或 者 教师 。 


本 书 是 专门 对 上 述 读者 所 打造 的 Ceph 入 门 级 实战 书籍 。 如 果 你 


存储 系统 工程 师 读 完 本 书 之 


实战 ， 循 序 渐进 地 讲述 Ceph 的 基础 知识 和 实战 操作 。 从 第 1 章 起 ， 读 者 会 了 解 Ceph 的 前 生 今世 。 随 着 每 章 推进 ， 读 者 将 


在 讲述 完 基础 理论 知识 后 会 有 对 应 的 实战 操作 。 我 们 建议 读者 在 自己 的 电脑 上 按部就班 地 进 


惑 ， 二 来 可 让 读者 通过 实战 操作 加 深 对 Ceph 的 理解 。 同 时 ， 如 果 读者 在 阅读 过 程 中 遇 到 困难 ， 我 们 建议 再 重 温 已 阅 章节 或 重 做 实验 操作 ， 这 样 将 会 


备 GNU/Linux 和 存储 系统 的 基本 知识 ， 却 缺乏 软件 定义 存储 解决 方案 及 Ceph 相 关 的 经 验 ， 本 书 也 是 不 错 的 选择 。 云 平台 运 维 工 程 师 、 


后 能 够 深入 了 解 Ceph 原 理 、 部 署 和 维护 好 线 上 Ceph 集 群 。 同 时 ， 本 书 也 适合 大 学 高 生 


进入 一 个 开源 的 分 布 式 存储 领域 ， 深 入 地 了 解 Ceph， 有 助 于 你 今后 的 工作 。 


如 何 阅读 本 书 


FRATERNA 


究 生 作为 Ceph 分 布 式 存储 系统 或 者 云 计 算 相关 课程 的 参考 书籍 ， 能 够 带领 你 


由 于 Ceph 是 运行 在 GNU/Linux 系 统 上 的 存储 解决 方案 ， 我 们 假定 读者 掌握 了 存储 相关 知识 并 熟悉 GNU/Linux 操 作 系统 。 如 果 读 者 在 这 些 方面 知识 有 欠缺 ， 可 参照 阅读 其 他 书籍 或 专业 信息 网 站 。 


本 书 将 讲述 如 下 的 内 容 。 


第 1 章 “描述 Ceph 的 起 源 、 主 要 功能 、 核 心 组 件 逻 辑 、 整 体 架构 和 设计 思想 ， 并 通过 实战 的 方式 指导 我 们 快速 建立 Ceph 运 行 环 境 。 


第 2 章 描述 Ceph 的 分 布 式 本 质 ， 深 入 分 析 Ceph 架 构 ， 并 介绍 如 何 使 用 LIBRADOS 库 。 


第 3 章 描述 CRUSH 的 本 质 、 基 本 原理 ， 以 及 CRUSH 作 用 下 数据 与 对 象 的 映射 关系 。 


第 4 章 ”描述 Ceph FS 文件 系统 、RBD 块 存储 和 Object 对 象 存储 的 建立 以 及 使 用 。 


第 5 章 ”描述 Calamari 的 安装 过 程 和 基本 使 用 操作 。 


第 6 章 描述 Ceph FS 作为 高 性 能 计算 和 大 数据 计算 的 后 端 存 储 的 内 容 。 


第 / 章 ”描述 RBD 在 虚拟 化 和 数据 库 场景 下 的 应 用 ， 包 括 OpenStack、CloudStack 和 ZStack 与 RBD 的 结合 。 


第 8 章 “描述 基于 Ceph 的 云 盘 技术 方案 和 备份 方案 ， 描 述 网 关 的 异地 同步 方案 和 多 媒体 转换 网 关 设计 。 


第 9 章 ”描述 Ceph 的 硬件 选 型 、 性 能 调 优 ， 以 及 性 能 测试 方法 。 


第 10 章 “描述 CRUSH 的 结构 ， 并 给 出 SSD 与 SATA 混 合 场景 下 的 磁盘 组 织 方案 。 


第 11 章 “描述 Ceph 的 缓冲 池 原 理 和 部 署 ， 以 及 纠 删 码 原理 和 纠 删 码 库 ， 最 后 描述 纠 删 码 池 的 部 署 方案 。 


第 12 章 ”对 3 种 存储 访问 类 型 的 生产 环境 案例 进行 分 析 。 


章 ”描述 Ceph 日 常 运 维 细节 ， 以 及 常见 错误 的 处 理 方法 。 


在 本 书 的 写作 过 程 ， 我 们 也 参考 了 Ceph 中 国 社区 往 期 沙龙 一 线 工程 师 、 专 家 分 享 的 经 验 和 Ceph 官 方 文档 。 我 们 热切 希望 能 够 为 读者 呈现 丰富 而 且 权威 的 Ceph 存 储 技术 。 由 于 Ceph 社 区 不 断 发 
本 途 代 速度 快 ， 笔 者 水 平 有 限 ， 书 中 难免 存在 技术 延 后 和 廖 误 ， 朋 请 读者 批评 指正 。 可 将 任何 意见 和 建议 发 送 到 邮箱 devin@ceph.org.cn 或 者 star.guo@ceph.org.cn， 也 可 以 发 布 到 Ceph 中 国 社 


统 。 我 们 将 密切 跟踪 Ceph 分 布 式 存储 技术 的 发 展 ， 吸 收 读者 宝贵 意见 ， 适 时 


欢迎 读者 扫描 关注 ，“Ceph 中 国 社区 订阅 号 ”会 定期 发 送 Ceph 技 术 文章 、 新 闻 资 讯 。 也 欢迎 读者 i 


| 编写 本 书 的 升级 版 本 。Ceph 中 国 


X 


通过 这 个 微 信 订 阅 号 进行 本 书 勘误 


社区 订阅 号 为 : “ceph_community”， 二 维 码 为 : 


反馈 ， 本 书 的 勘误 和 更 新 也 会 通过 订阅 号 发 布 。 


首先 要 感谢 我 们 社区 的 全 体 志 愿 者 ， 社 区 的 发 展 离 不 开 全 体 志愿 者 们 无 怨 无 悔 的 奉献 ， 正 是 有 了 你 们 才 有 了 社区 今日 的 繁荣 ， 其 次 要 感谢 所 有 支持 过 我 们 的 企业 ， 是 你 们 的 慷慨 解囊 成 就 了 Ceph 中 
区 今日 的 壮大 ， 最 后 感谢 陈 晓 嘉 的 校 稿 以 及 所 有 为 本 书 编写 提供 支持 、 帮 助 的 人 。 未 来 ， 我 们 也 非常 欢迎 有 志 将 开源 寻 


业 发 扬 光 大 的 同学 们 积极 加 入 我 们 的 社区 ， 和 我 们 一 起 创造 Ceph 未 来 的 辉煌 。 


社 


1.Ceph 简 介 


从 2004 年 提交 第 一 行 代码 开始 到 现在 ，Ceph 已 经 是 一 个 有 着 十 年 之 久 的 分 布 式 存储 系统 软件 ， 目 前 Ceph 已 经 发 展 为 开源 存储 界 的 当红 明星 ， 当 然 这 与 它 的 设计 思想 以 及 OpenStack 的 推动 有 关 。 


“Ceph is a unified, distributed storage system designed for excellent performance, reliability and scalability。” 这 和 句 话说 出 了 Ceph 的 特性 ， 它 是 可 靠 的 、 可 扩展 的 、 统 一 的 、 分 布 式 的 存储 
系统 。Ceph 可 以 同时 提供 对 象 存储 RADOSGW (Reliable, Autonomic, Distributed, Object Storage Gateway) 、 块 存储 RBD (Rados Block Device) 、 文 件 系统 存储 Ceph FS (Ceph 
Filesystem) 3 种 功能 ， 以 此 来 满足 不 同 的 应 用 需求 。 


Ceph 消 除了 对 系统 单一 中 心 节点 的 依赖 ， 从 而 实现 了 真正 的 无 中 心 结构 的 设计 思想 ， 这 也 是 其 他 分 布 式 存储 系统 所 不 能 比 的。 通过 后 续 章节 内 容 的 介绍 ， 你 可 以 看 到 ，Ceph 几 乎 所 有 优秀 特性 的 实 
现 ， 都 与 其 核心 设计 思想 有 关 。 


Openstack 是 目前 最 为 流行 的 开源 云 平台 软件 。Ceph 的 飞速 发 展 离 不 开 OpensStack 的 带动 。 目 前 而 言 ，Ceph 已 经 成 为 DpenStack 的 标 配 开源 存储 方案 之 一 ， 其 实际 应 用 主要 涉及 块 存储 和 对 象 存储 ， 
并 且 开 始 向 文件 系统 领域 扩展 。 这 一 部 分 的 相关 情况 ， 在 后 续 章 节 中 也 将 进行 介绍 。 


2.Ceph 的 发 展 


Ceph 是 加 州 大 学 Santa Cruz 分 校 的 sage Weil (DreamHost 的 联合 创始 人 ) 专 为 博士 论文 设计 的 新 一 代 自由 软件 分 布 式 文件 系统 。 


2004 年 ，Ceph 项 目 开 始 ， 提 交 了 第 一 行 代码 。 


2006 年 ，OSDI 学 术 会 议 上 ，Sage 发 表 了 介绍 Ceph 的 论文 ， 并 在 该 篇 论文 的 末尾 提供 了 Ceph 项 目的 下 载 链接 。 


2010 年 ，Linus Torvalds 将 Ceph Client 合 并 到 内 核 2.6.34 中 ， 使 Linux 与 Ceph 磨 合 度 更 高 。 


2012 年 ,拥抱 OpenStack， 进 入 Cinder 项 目 ， 成 为 重要 的 存储 驱动 。 


2014 年 ，Ceph 正 赶 上 OpenStack 大 热 ， 受 到 各 大 厂商 的 “ 待 见 ”， 吸 引 来 自 不 同 广 商 越 来 越 多 的 开发 者 加 入 ，Intel、SanDisk 等 公司 都 参与 其 中 ， 同 时 Inktank 公 司 被 Red Hat 公 司 1.75 亿 美元 收购 。 


2015 年 ，Red Hat 宣 布 成 立 Ceph 顾 问 委 员 会 ， 成 员 包 括 Canonical、CERN、Cisco、Fujitsu、Intel、SanDisk 和 SUSE。Ceph 顾 问 委员 会 将 负责 Ceph 软 件 定义 存储 项 目的 广泛 议题 ， 目 标 是 使 Ceph 成 
为 云 存储 系统 。 


2016 年 ，Openstack 社 区 调查 报告 公布 ，Ceph 仍 为 存储 首选 ， 这 已 经 是 Ceph 第 5 次 位 居 调 查 的 首位 了 。 


3.Ceph 应 用 场景 


Ceph 可 以 提供 对 象 存储 、 块 设备 存储 和 文件 系统 服务 ， 其 对 象 存储 可 以 对 接 网 盘 (owncloud) 应 用 业务 等 ; 其 块 设备 存储 可 以 对 接 (laaS) ， 当 前 主流 的 laas 云 平台 软件 ， 例 如 Openstack、 
CloudStack、Zstack、Eucalyptus 等 以 及 KVM 等 ， 本 书后 续 章节 中 将 介绍 OpenStack、CloudStack、Zstack 和 KVM 的 对 接 ; 其 文件 系统 文件 尚 不 成 熟 ， 官 方 不 建议 在 生产 环境 下 使 用 。 


4.Ceph 生 态 系统 


Ceph 作 为 开源 项 目 ， 其 遵循 LGPL 协 议 ， 使 用 C++ 语言 开发 ， 目 前 Ceph 已 经 成 为 最 广泛 的 全 球 开 源 软件 定义 存储 项 目 ， 拥 有 得 到 众多 IT 厂商 支持 的 协同 开发 模式 。 目 前 Ceph 社 区 有 超过 40 个 公司 的 上 
百名 开发 者 持续 贡献 代码 ， 平 均 每 星期 的 代码 commits 超 过 150 个 ， 每 个 版 本 通常 在 2000 个 commits 左 右 ， 代 码 增 减 行 数 在 10 万 行 以 上 。 在 过 去 的 几 个 版 本 发 布 中 ， 贡 献 者 的 数量 和 参与 公司 明显 增加 ， 如 
图 1-1 所 示 。 
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图 1-1 ”部 分 厂商 和 软件 


5.Ceph 用 户 群 


Ceph 成 为 了 开源 存储 的 当红 明星 ， 国 内 外 已 经 拥有 众多 用 户 群体 ， 下 面 简单 说 一 下 Ceph 的 用 户 群 。 


(1) 国外 用 户 群 


1) CERN: CERN IT 部 门 在 2013 年 年 中 开始 就 运行 了 一 个 单一 集群 超过 10000 个 VM 和 100000 个 CPU Cores 的 云 平台 ， 主 要 用 来 做 物理 数据 分 析 。 这 个 集群 后 端 Ceph 包 括 3PB 的 原始 容量 ， 在 云 平台 中 
作为 1000 多 个 Cinder 卷 和 1500 多 个 Glance 镜 像 的 存储 池 。 在 2015 年 开始 测试 单一 30 PB 的 块 存储 RBD 集 群 。 


2) DreamHost: DreamHost 从 2012 年 开始 运行 基于 Ceph RADOSGW 的 大 规模 对 象 存储 集群 ， 单 一 集群 在 3PB 以 下 ， 大 约 由 不 到 10 机 房 集群 组 成 ， 直 接 为 客户 提供 对 象 存储 服务 。 


3) Yahoo Flick: Yahoo Flick 自 2013 年 开始 逐渐 试用 Ceph 对 象 存储 蔡 换 原 有 的 商业 存储 ， 目 前 大 约 由 10 机 房 构 成 ， 每 个 机 房 在 IPB~2PB， 存 储 了 大 约 2500 亿 个 对 象 。 


4) 大 学 用 户 : 奥地利 的 因 斯 布鲁克 大 学 、 法 国 的 洛 林 大 学 等 。 


(2) 国内 用 户 群 


1) 以 Openstack 为 核心 的 云 厂商 : 例如 UnitedStack、Awcloud 等 国内 云 计 算 厂商 。 


2) Ceph 产 品 厂商 : SanDisk、XSKY、H3C、 杉 岩 数 据 、SUSE 和 Bigtera 等 Ceph 厂 商 。 


3) 互联 网 企业 : 腾讯 、 京 东 、 新 浪 微 博 、 乐 视 、 完 美 世界 、 平 安 科技 、 联 想 、 唯 品 会 、 福 彩 网 和 魅族 等 国内 互联 网 企业 。 


6. 社 区 项 目 开发 迭代 


目前 Ceph 社 区 采用 每 半年 一 个 版 本 发 布 的 方式 来 进行 特性 和 功能 的 开发 ， 每 个 版 本 发 布 需要 经 历 设计 、 开 发 、 新 功能 冻结 ， 持 续 若干 个 版 本 的 Bug 修 复 周 期 后 正式 发 布下 一 个 稳定 版 本 。 其 发 布 方式 跟 
Openstack 差 不 多 ， 也 是 每 半年 发 布 一 个 新 版 本 。 


Ceph 会 维护 多 个 稳定 版 本 来 保证 持续 的 Bug 修 复 ， 以 此 来 保证 用 户 的 存储 安全 ， 同 时 社区 会 有 一 个 发 布 稳定 版 本 的 团队 来 维护 已 发 布 的 版 本 ， 每 个 涉及 之 前 版 本 的 Bug 都 会 被 该 团队 移植 
并 且 经 过 完整 QA 测 试 后 发 布下 一 个 稳定 版 本 。 


回 


稳定 版 本 ， 


代码 提交 都 需要 经 过 单元 测试 ， 模 块 维护 者 审核 ， 并 通过 QA 测 试 子 集 后 才能 合并 到 主线 。 社 区 维护 一 个 较 大 规模 的 测试 集群 来 保证 代码 质量 ， 丰 富 的 测试 案例 和 错误 注入 机 制 保证 了 项 目的 稳定 可 靠 。 


7.Ceph 版 本 


Ceph 正 处 于 持续 开发 中 并 且 迅 速 提升 。2012 年 7 月 3 日 ，Sage 发 布 了 Ceph 第 一 个 LTS 版 本 : Argonaut。 从 那 时 起 ， 陆 续 又 发 布 了 9 个 新 版 本 。Ceph 版 本 被 分 为 LTS (长 期 稳定 版 ) 以 及 开发 版 
本 ，Ceph 每 隔 一 段 时 间 就 会 发 布 一 个 长 期 稳定 版 。Ceph 版 本 具体 信息 见 表 1-1。 和 欲 了 解 更 多 信息 ， 请 访问 https://Ceph.comy/category/releases/。 


表 1-1 Ceph 版 本 信息 


Ceph 版 本 名 称 Ceph 版 本 号 发 布 时 间 
Argonaut V0.48 (LTS) 2012.6.3 
Bobtail V0.56 (LTS) 2013.1.1 
Cuttlefish V0.61 2013.5.7 
Dumpling V0.67 (LTS) 2013.8.14 
Emperor V0.72 2013.11.9 
Firefly V0.80 (LTS) 2014.3.7 
Giant V0.87.1 2015.2.26 
Hammer V0.94 (LTS) 2015.4.7 
Infernalis V9.0.0 2015.5.5 
Jewel V10.0.0 2015.11 
Jewel V10.2.0 2016.3 
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1.1 ”Ceph 概 述 


1.Ceph 简 介 


从 2004 年 提交 第 一 行 代码 开始 到 现在 ，Ceph 已 经 是 一 个 有 着 十 年 之 久 的 分 布 式 存储 系统 软件 ， 目 前 Ceph 已 经 发 展 为 开源 存储 界 的 当红 明星 ， 当 然 这 与 它 的 设计 思想 以 及 OpenStack 的 推动 有 关 。 


"Ceph is a unified, distributed storage system designed for excellent performance, reliability and scalability。” 这 和 句 话说 出 了 Ceph 的 特性 ， 它 是 可 靠 的 、 可 扩展 的 、 统 一 的 、 分 布 式 的 存储 
系统 。Ceph 可 以 同时 提供 对 象 存储 RADOSGW (Reliable, Autonomic, Distributed, Object Storage Gateway) 、 块 存储 RBD (Rados Block Device) 、 文 件 系统 存储 Ceph FS (Ceph 
Filesystem) 3 种 功能 ， 以 此 来 满足 不 同 的 应 用 需求 。 


Ceph 消 除了 对 系统 单一 中 心 节点 的 依赖 ， 从 而 实现 了 真正 的 无 中 心 结构 的 设计 思想 ， 这 也 是 其 他 分 布 式 存储 系统 所 不 能 比 的 。 通 过 后 续 章 节 内 容 的 介绍 ， 你 可 以 看 到 ，Ceph 几 乎 所 有 优秀 特性 的 实 
现 ， 都 与 其 核心 设计 思想 有 关 。 


Openstack 是 目前 最 为 流行 的 开源 云 平台 软件 。Ceph 的 飞速 发 展 离 不 开 Openstack 的 带动 。 目 前 而 言 ，Ceph 已 经 成 为 DpenStack 的 标 配 开源 存储 方案 之 一 ， 其 实际 应 用 主要 涉及 块 存储 和 对 象 存储 ， 
并 且 开 始 向 文件 系统 领域 扩展 。 这 一 部 分 的 相关 情况 ， 在 后 续 章 节 中 也 将 进行 介绍 。 


2.Ceph 的 发 展 


Ceph 是 加 州 大 学 Santa Cruz 分 校 的 Sage Weil (DreamHost 的 联合 创始 人 ) 专 为 博士 论文 设计 的 新 一 代 自由 软件 分 布 式 文件 系统 。 
2004 年 ，Ceph 项 目 开 始 ， 提 交 了 第 一 行 代码 。 


2006 年 ，OSDI 学 术 会 议 上 ，Sage 发 表 了 介绍 Ceph 的 论文 ， 并 在 该 篇 论文 的 末尾 提供 了 Ceph 项 目的 下 载 链 接 。 


2010 年 ，Linus Torvalds 将 Ceph Client 合 并 到 内 核 2.6.34 中 ， 使 Linux 与 Ceph 磨 合 度 更 高 。 


2012 年 ， 拥 抱 OpenStack， 进 入 Cinder 项 目 ， 成 为 重要 的 存储 驱动 。 


2014 年 ，Ceph 正 赶 上 OpenStack 大 热 ， 受 到 各 大 厂商 的 “ 待 见 ”， 吸 引 来 自 不 同 广 商 越 来 越 多 的 开发 者 加 入 ，Intel、SanDisk 等 公司 都 参与 其 中 ， 同 时 Inktank 公 司 被 Red Hat 公 司 1.75 亿 美元 收购 。 


2015 年 ，Red Hat 宣 布 成 立 Ceph 顾 问 委 员 会 ， 成 员 包 括 Canonical、CERN、Cisco、Fujitsu、Intel、SanDisk 和 SUSE。Ceph 顾 问 委员 会 将 负责 Ceph 软 件 定义 存储 项 目的 广泛 议题 ， 目 标 是 使 Ceph 成 
为 云 存储 系统 。 


2016 年 ，OpenStack 社 区 调查 报告 公布 ，Ceph 仍 为 存储 首选 ， 这 已 经 是 Ceph 第 5 次 位 居 调 查 的 首位 了 。 


3.Ceph 应 用 场景 


Ceph 可 以 提供 对 象 存储 、 块 设备 存储 和 文件 系统 服务 ， 其 对 象 存储 可 以 对 接 网 盘 (owncloud) 应 用 业务 等 ; 其 块 设备 存储 可 以 对 接 (laaS) ， 当 前 主流 的 laaS 云 平台 软件 ,例如 OpenStack、 
CloudStack、Zstack、Eucalyptus 等 以 及 KVM 等 ， 本 书后 续 章节 中 将 介绍 OpenStack、CloudStack、Zstack 和 KVM 的 对 接 ; 其 文件 系统 文件 尚 不 成 熟 ， 官 方 不 建议 在 生产 环境 下 使 用 。 


4.Ceph 生 态 系统 


Ceph 作 为 开源 项 目 ， 其 遵循 LGPL 协 议 ， 使 用 C++ 语言 开发 ， 目 前 Ceph 已 经 成 为 最 广泛 的 全 球 开 源 软件 定义 存储 项 目 ， 拥 有 得 到 众多 IT 厂商 支持 的 协同 开发 模式 。 目 前 Ceph 社 区 有 超过 40 个 公司 的 上 
百名 开发 者 持续 贡献 代码 ， 平 均 每 星期 的 代码 commits 超 过 150 个 ， 每 个 版 本 通常 在 2000 个 commits 左 右 ， 代 码 增 减 行 数 在 10 万 行 以 上 。 在 过 去 的 几 个 版 本 发 布 中 ， 贡 献 者 的 数量 和 参与 公司 明显 增加 ， 如 
图 1-1 所 示 。 
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图 1-1 部 分 厂商 和 软件 


5.Ceph 用 户 群 


Ceph 成 为 了 开源 存储 的 当红 明星 ， 国 内 外 已 经 拥有 众多 用 户 群 体 ， 下 面 简单 说 一 下 Ceph 的 用 户 群 。 


(1) 国外 用 户 群 


1) CERN: CERN IT 部 门 在 2013 年 年 中 开始 就 运行 了 一 个 单一 集群 超过 10000 个 VM 和 100000 个 CPU Cores 的 云 平台 ， 主 要 用 来 做 物理 数据 分 析 。 这 个 集群 后 端 Ceph 包 括 3PB 的 原始 容量 ， 在 云 平台 中 
作为 1000 多 个 Cinder 卷 和 1500 多 个 Glance 镜 像 的 存储 池 。 在 2015 年 开始 测试 单一 30 PB 的 块 存储 RBD 集 群 。 


2) DreamHost: DreamHost 从 2012 年 开始 运行 基于 Ceph RADOSGW 的 大 规模 对 象 存储 集群 ， 单 一 集群 在 3PB 以 下 ， 大 约 由 不 到 10 机 房 集群 组 成 ， 直 接 为 客户 提供 对 象 存储 服务 。 


3) Yahoo Flick: Yahoo Flick 自 2013 年 开始 逐渐 试用 Ceph 对 象 存储 蔡 换 原 有 的 商业 存储 ， 目 前 大 约 由 10 机 房 构 成 ， 每 个 机 房 在 IPB~2PB， 存 储 了 大 约 2500 亿 个 对 象 。 


4) 大 学 用 户 : 奥地利 的 因 斯 布鲁克 大 学 、 法 国 的 洛 林 大 学 等 。 


(2) 国内 用 户 群 


1) 以 OpenStack 为 核心 的 云 厂 商 : 例如 UnitedStack、Awcloud 等 国内 云 计 算 厂商 。 


2) Ceph 产 品 厂商 : SanDisk、XSKY、H3C、 杉 岩 数 据 、SUSE 和 Bigtera 等 Ceph 厂 商 。 


3) 互联 网 企业 : 腾讯 、 京 东 、 新 浪 微 博 、 乐 视 、 完 美 世界 、 平 安 科技 、 联 想 、 唯 品 会 、 福 彩 网 和 魅族 等 国内 互联 网 企业 。 


6. 社 区 项 目 开发 迭代 


目前 Ceph 社 区 采用 每 半年 一 个 版 本 发 布 的 方式 来 进行 特性 和 功能 的 开发 ， 每 个 版 本 发 布 需要 经 历 设计 、 开 发 、 新 功能 冻结 ,持续 若干 个 版 本 的 Bug 修 复 周期 后 正式 发 布下 一 个 稳定 版 本 。 其 发 布 方式 跟 
OpenStack 差 不 多 ， 也 是 每 半年 发 布 一 个 新 版 本 。 


Ceph 会 维护 多 个 稳定 版 本 来 保证 持续 的 Bug 修 复 ， 以 此 来 保证 用 户 的 存储 安全 ， 同 时 社区 会 有 一 个 发 布 稳定 版 本 的 团队 来 维护 已 发 布 的 版 本 ， 每 个 涉及 之 前 版 本 的 Bug 都 会 被 该 团队 移植 
并 且 经 过 完整 QA 测 试 后 发 布下 一 个 稳定 版 本 。 


稳定 版 本 ， 


回 


代码 提交 都 需要 经 过 单元 测试 ， 模 块 维护 者 审核 ， 并 通过 QA 测试 子 集 后 才能 合并 到 主线 。 社 区 维护 一 个 较 大 规模 的 测试 集群 来 保证 代码 质量 ， 丰 富 的 测试 案例 和 错误 注入 机 制 保证 了 项 目的 稳定 可 靠 。 
7.Ceph 版 本 


Ceph 正 处 于 持续 开发 中 并 且 迅 速 提升 。2012 年 7 月 3 日 ，Sage 发 布 了 Ceph 第 一 个 LTS 版 本 : Argonaut。 从 那 时 起 ， 陆 续 又 发 布 了 9 个 新 版 本 。Ceph 版 本 被 分 为 LTS (长 期 稳定 版 ) 以 及 开发 版 
本 ，Ceph 每 隔 一 段 时 间 就 会 发 布 一 个 长 期 稳定 版 。Ceph 版 本 具体 信息 见 表 1-1。 欲 了 解 更 多 信息 ， 请 访问 https://Ceph.com/category/releases/。 


表 1-1 Ceph 版 本 信息 


Ceph 版 本 名 称 Ceph 版 本 号 发 布 时 间 
Argonaut V0.48 (LTS) 2012.6.3 
Bobtail V0.56 (LTS) 2013.1.1 
Cuttlefish V0.61 2013.5.7 
Dumpling V0.67 (LTS) 2013.8.14 
Emperor V0.72 2013.11.9 
Firefly V0.80 (LTS) 2014.3.7 
Giant V0.87.1 2015.2.26 
Hammer V0.94 (LTS) 2015.4.7 
Infernalis V9.0.0 2015.5.5 
Jewel V10.0.0 2015.11 
Jewel V10.2.0 2016.3 


1.2 ”Ceph 的 功能 组 件 


Ceph 提 供 了 RADOS、OSD、MON、Librados、RBD、RGW 和 Ceph FS 等 功能 组 件 ， 但 其 底层 仍然 使 用 RADOS 存 储 来 支撑 上 层 的 那些 组 件 ， 如 图 1-2 所 示 。 


MDS 


图 1-2 ”Ceph 功 能 组 件 的 整体 架构 


下 面 分 为 两 部 分 来 讲述 Ceph 的 功能 组 件 。 
(1) Ceph 核 心 组 件 


在 Ceph 存 储 中 ， 包 含 了 几 个 重要 的 核心 组 件 , 分 别 是 Ceph OSD, Ceph Monitor 和 Ceph MDS。 一 个 Ceph 的 存储 集群 至 少 需要 一 个 Ceph Monitor 和 至 少 两 个 Ceph 的 OSD。 运 行 Ceph 文 件 系统 的 客 
户 端 时 ，Ceph 的 元 数据 服务 器 (MDS) 是 必 不 可 少 的 。 下 面 来 详细 介绍 一 下 各 个 核心 组 件 。 


“ Ceph OSD: 全 称 是 Object Storage Device， 主 要 功能 包括 存储 数据 ， 处 理 数据 的 复制 、 恢 复 、 回 补 、 平 衡 数据 分 布 ， 并 将 一 些 相 关 数 据 提 供给 Ceph Monitor， 例 如 Ceph OSD 心 跳 等 。 一 个 Ceph 的 存储 集 
群 ， 至 少 需要 两 个 Ceph OSD 来 实现 active+clean 健 康 状态 和 有 效 的 保存 数据 的 双 副 本 (默认 情况 下 是 双 副 本 ， 可 以 调整 ) 。 注 意 : 每 一 个 Disk、 分 区 都 可 以 成 为 一 个 OSD。 


“ Ceph Monitor: Ceph 的 监控 器 ， 主 要 功能 是 维护 整个 集群 健康 状态 ， 提 供 一 致 性 的 决策 ， 包 含 了 Monitor map、OSD map. PG (Placement Group). map 和 CRUSH map. 


* Ceph MDS: 全 称 是 Ceph Metadata Server， 主 要 保存 的 是 Ceph 文 件 系 统 (File System) 的 元 数据 (metadata) 。 温 声 提 示 : Ceph 的 块 存储 和 Ceph 的 对 象 存储 都 不 需要 Ceph MDS。Ceph MDS 为 基于 POSIX 
文件 系统 的 用 户 提供 了 一 些 基础 命令 ， 例 如 lsS、find 等 命令 。 


(2) Ceph 功 能 特性 


Ceph 可 以 同时 提供 对 象 存 储 RADOSGW (Reliable, Autonomic, Distributed, Object Storage Gateway) 、 块 存储 RBD (Rados Block Device) 、 文 件 系统 存储 Ceph FS (Ceph File System) 3 
种 功能 ， 由 此 产生 了 对 应 的 实际 场景 ， 本 节 简 单 介绍 如 下 。 


RADOSGW 功 能 特性 基于 LIBRADOS 之 上 ， 提 供 当前 流行 的 RESTful 协 议 的 网 关 ， 并 且 兼 容 S3 和 Swift 接口 ， 作 为 对 象 存储 ， 可 以 对 接 网 盘 类 应 用 以 及 HLS 流 媒体 应 用 等 。 


RBD (Rados Block Device) 功能 特性 也 是 基于 LIBRADOS 之 上 ， 通 过 LIBRBD 创 建 一 个 块 设备 ， 通 过 QEMU/KVM 附 加 到 VM 上 ， 作 为 传统 的 块 设备 来 用 。 目 前 OpenStack、CloudStack 等 都 是 采用 这 
种 方式 来 为 VM 提供 块 设备 ， 同 时 也 支持 快照 、COW (Copy On Write) 等 功能 。 


Ceph FS (Ceph File System) 功能 特性 是 基于 RADOS 来 实现 分 布 式 的 文件 系统 ， 引 入 了 MDS (Metadata Server) ， 主 要 为 兼容 POSIX 文 件 系统 提供 元 数据 。 一 般 都 是 当做 文件 系统 来 挂 载 。 


后 面 章节 会 对 这 几 种 特性 以 及 对 应 的 实际 场景 做 详细 的 介绍 和 分 析 。 


1.3 “Ceph 架 构 和 设计 思想 


1.Ceph 架 构 


Ceph 底 层 核心 是 RADOS。Ceph 架 构图 如 图 1-3 所 示 。 


HOST/VM 


RADOSGW RBD 
LIBRADOS 


图 1-3 CephAgi E 


: RADOS: RADOS 具 备 自我 修复 等 特性 ， 提 供 了 一 个 可 靠 、 自 动 、 智 能 的 分 布 式 存储 。 

: LIBRADOS: LIBRADOS 库 允许 应 用 程序 直接 访问 ， 支 持 C/C++、jJava 和 Python 等 语言 。 

: RADOSGW: RADOSGW 是 一 套 基于 当前 流行 的 RESTful 协 议 的 网 关 ， 并 且 兼 容 S3 和 Swift。 

RBD: RBD 通 过 Linux 内 核 (Kernel) 客户 端 和 QEMU/KVM 了 驱动 ， 来 提供 一 个 完全 分 布 式 的 块 设备 。 


* Ceph FS: Ceph FS 通过 Linux 内 核 (Kernel) 客户 端 结 合 FUSE ， 来 提供 一 个 兼容 POSIX 的 文件 系统 。 


具体 的 RADOS 细 节 以 及 RADOS 的 灵魂 CRUSH (Controlled Replication Under Scalable Hashing， 可 扩展 哈 希 算法 的 可 控 复 制 ) 算法 ， 这 两 个 知识 点 会 在 后 面 的 第 2、3 章 详细 介绍 和 分 析 。 


2.Ceph 设 计 思 想 


Ceph 是 一 个 典型 的 起 源 于 学 术 研究 课题 的 开源 项 目 。 虽 然 学 术 研究 生涯 对 于 Sage 而 言 只 是 其 光辉 事迹 的 短 短 一 篇 ， 但 毕竟 还 是 有 几 篇 学 术 论文 可 供 参 考 的 。 可 以 根据 Sage 的 几 篇 论文 分 析 Ceph 的 设计 
思想 。 


理解 Ceph 的 设计 思想 ， 首 先 还 是 要 了 解 Sage 设 计 Ceph 时 所 针对 的 应 用 场景 ， 换 句 话 说 ，Sage 当 初 做 Ceph 的 初衷 的 什么 ? 


事实 上 ，Ceph 最 初 针对 的 应 用 场景 ， 就 是 大 规模 的 、 分 布 式 的 存储 系统 。 所 谓 “ 大 规模 ”和 “分 布 式 ”， 至 少 是 能 够 承载 PB 级 别 的 数据 和 成 干 上 万 的 存储 节点 组 成 的 存储 集群 。 


如 今 云 计算 、 大 数据 在 中 国 发 展 得 如 火 如 茶 ，PB 容 量 单位 早已 经 进入 国内 企业 存储 采购 单 ，DT 时 代 即 将 来 临 。Ceph 项 目 起 源 于 2004 年 ， 那 是 一 个 商用 处 理 器 以 单 核 为 主流 ， 常 见 硬盘 容量 只 有 几 十 
GB 的 年 代 。 当 时 SSD 也 没有 大 规模 商用 ， 正 因 如 此 ，Ceph 之 前 版 本 对 SSD 的 支持 不 是 很 好 ， 发 挥 不 了 SSD 的 性 能 。 如 今 Ceph 高 性 能 面临 的 最 大 挑战 正 是 这 些 历史 原因 ， 目 前 社区 和 业界 正在 逐步 解决 这 些 
性 能 上 的 限制 。 


在 Sage 的 思想 中 ,我们 首先 说 一 下 Ceph 的 技术 特性 ， 总 体 表 现在 集群 可 靠 性 、 集 群 扩展 性 、 数 据 安全 性 、 接 口 统一 性 4 个 方面 。 


集群 可 靠 性 : 所 谓 “ 可 靠 性 ”， 首 先 从 用 户 角 度 来 说 数据 是 第 一 位 的 ， 要 尽 可 能 保证 数据 不 会 丢失 。 其 次 ， 就 是 数据 写 入 过 程 中 的 可 靠 性 ， 在 用 户 将 数据 写 入 Ceph 存 储 系 统 的 过 程 中 ， 不 会 因为 意外 
情况 出 现 而 造成 数据 丢失 。 最 后 ， 就 是 降低 不 可 控 物 理 因素 的 可 靠 性 ， 避 免 因 为 机 器 断 电 等 不 可 控 物 理 因素 而 产生 的 数据 丢失 。 


集群 可 扩展 性 : 这 里 的 “可 扩展 ”概念 是 广义 的 ， 既 包括 系统 规模 和 存储 容量 的 可 扩展 ， 也 包括 随 着 系统 节点 数 增加 的 聚合 数据 访问 带宽 的 线性 扩展 。 


“ 数据 安全 性 : 所 谓 “数据 安全 性 ”， 首 先 要 保证 由 于 服务 器 死机 或 者 是 偶然 停电 等 自然 因素 的 产生 ， 数 据 不 会 丢失 ， 并 且 支持 数据 自动 恢复 ， 自 动 重 平 衡 等 。 总 体 而 言 ， 这 一 特性 既 保 证 了 系统 的 高 
度 可 靠 和 数据 绝对 安全 ， 又 保证 了 在 系统 规模 扩大 之 后 ， 其 运 维 难度 仍 能 保持 在 一 个 相对 较 低 的 水 平 。 


“ 接口 统一 性 : 所 谓 “接口 统一 ”， 本 书 开 头 就 说 到 了 Ceph 可 以 同时 支持 3 种 存储 ， 即 块 存储 、 对 象 存储 和 文件 存储 。Ceph 支 持 市 面 上 所 有 流行 的 存储 类 型 。 


: 充分 发 挥 存储 设备 自身 的 计算 能 力 : 其 实 就 是 采用 廉价 的 设备 和 具有 计算 能 力 的 设备 〈 最 简单 的 例子 就 是 普通 的 服务 器 ) 作为 存储 系统 的 存储 节点 。Sage 认 为 当前 阶段 只 是 将 这 些 服务 器 当做 功能 简 
单 的 存储 节点 ， 从 而 产生 资源 过 度 浪 费 (如 同 虚 拟 化 的 思想 一 样 ， 都 是 为 了 避免 资源 浪费 ) 。 而 如 果 充 分 发 挥 节点 上 的 计算 能 力 ， 则 可 以 实现 前 面 提出 的 技术 特性 。 这 一 点 成 为 了 Ceph 系 统 设计 的 核心 思 


. 去 除 所 有 的 中 心 点 : 摘 IT 的 最 忌讳 的 就 是 单 点 故障 ， 如 果 系 统 中 出 现 中 心 点 ， 一 方面 会 引入 单 点 故障 ， 另 一 方面 也 必然 面临 着 当 系统 规模 扩大 时 的 可 扩展 性 和 性 能 瓶颈 。 除 此 之 外 ， 如 果 中 心 点 出 现 
在 数据 访问 的 关键 路 径 上 ， 也 必然 导致 数据 访问 的 延迟 增 大 。 虽 然 在 大 多 数 存 储 软件 实践 中 ， 单 点 故障 点 和 性 能 瓶颈 的 问题 可 以 通过 为 中 心 点 增加 HA 或 备份 加 以 缓解 ， 但 Ceph 系 统 最 终 采 用 Crush、Hash 环 
等 方法 更 彻底 地 解决 了 这 个 问题 。 很 显然 Sage 的 眼光 和 设想 还 是 很 超前 的 。 


14 ”Ceph 快 速 安装 


在 Ceph 官 网 上 提供 了 两 种 安装 方式 : 快速 安装 和 手动 安装 。 快 速 安装 采用 Ceph-Deploy 工 具 来 部 署 ; 手动 安装 采用 官方 教程 一 步 一 步 来 安装 部 署 Ceph 集 群 ， 过 于 烦琐 但 有 助 于 加 深 印 象 ， 如 同 手动 部 
署 Openstack 一 样 。 但 是 ， 建 议 新 手 和 初学 者 采用 第 一 种 方式 快速 部 署 并 且 测 试 ， 下 面 会 介绍 如 何 使 用 Ceph-Deploy 工 具 来 快速 部 署 Ceph 集 群 。 


15 “本 章 小 结 


本 章 主 要 从 Ceph 的 历史 背景 、 发 展 事件 、Ceph 的 架构 组 件 、 功 能 特性 以 及 Ceph 的 设计 思想 方面 介绍 了 Ceph， 让 大 家 对 Ceph 有 一 个 全 新 的 认识 ， 以 便 后 面 更 深入 地 了 解 Ceph。 


第 2 章 ”存储 基石 RADOS 


分 布 式 对 象 存储 系统 RADOS 是 Ceph 最 为 关键 的 技术 ， 它 是 一 个 支持 海量 存储 对 象 的 分 布 式 对 象 存储 系统 。RADOS 层 本 身 就 是 一 个 完整 的 对 象 存储 系统 ， 事 实 上 ， 所 有 存储 在 Ceph 系 统 中 的 用 户 数据 
最 终 都 是 由 这 一 层 来 存储 的 。 而 Ceph 的 高 可 靠 、 高 可 扩展 、 高 性 能 、 高 自动 化 等 特性 ， 本 质 上 也 是 由 这 一 层 所 提供 的 。 因 此 ， 理 解 RADOS 是 理解 Ceph 的 基础 与 关键 。 


Ceph 的 设计 哲学 如 下 。 


- 每 个 组 件 必须 可 扩展 。 
“ 不 存在 单 点 故障 。 

: 解决 方案 必须 是 基于 软件 的 。 

“ 可 摆脱 专属 硬件 的 束缚 即 可 运行 在 常规 硬件 上 。 

“ 推 党 自我 管理 。 
由 第 1 章 的 讲解 可 以 知道 ，Ceph 包 含 以 下 组 件 。 

“分布 式 对 象 存 储 系统 RADOS 库 ， 即 LIBRADOS。 

- 基于 LIBRADOS 实 现 的 兼容 Swift 和 S3 的 存储 网 关系 统 RADOSGW。 
< 基于 LIBRADOS 实 现 的 块 设备 驱动 RBD。 

“ 兼容 POSIX 的 分 布 式 文件 Ceph TS. 


“ 最 底层 的 分 布 式 对 象 存储 系统 RADOS。 


2.1 Ceph 功 能 模块 与 RADOS 


[R] 


Ceph 中 的 这 些 组 件 与 RADOS 有 什么 关系 呢 ， 笔 者 手绘 了 一 张 简单 的 Ceph 架 构图 ， 我 们 结合 图 2-1 来 分 析 这 些 组 件 与 RADOS 的 关系 。 


LIBRADOS 


RADOS Cluster 


图 2-1 Ceph 架 构图 


Ceph 存 储 系统 的 逻辑 层次 结构 大 致 划分 为 4 部 分 : 基础 存储 系统 RADOS、 基 于 
架构 ( 见 图 1-1) 我 们 在 第 1 章 有 过 初步 的 了 解 ， 这 里 详 和 


FRADOS 实 现 的 Ceph FS， 基 于 RADOS 的 LIBRADOS 层 应 用 接 
看 一 下 各 个 模块 的 功能 ， 以 此 了 解 RADOS 在 整个 Ceph 起 到 的 作用 。 


、 基 于 LIBRADOS 的 应 用 接口 RBD、RADOSGW。Ceph 


(1) 基础 存储 系统 RADOS 


RADOS 这 一 层 本 身 就 是 一 个 完整 的 对 象 存储 系统 ， 事 实 上 ， 所 有 存储 在 Ceph 系 统 中 的 用 户 数据 最 终 都 是 由 这 一 层 来 存储 的 。Ceph 的 很 多 优秀 特性 本 质 上 也 是 借 由 这 一 层 设计 提供 。 理 解 RADOS 是 理 
解 Ceph 的 基础 与 关键 。 物 理 上 ，RADOS 由 大 量 的 存储 设备 节点 组 成 ， 每 个 节点 拥有 自己 的 硬件 资源 (CPU、 内 存 、 硬 盘 、 网 络 ) ， 并 运行 着 操作 系统 和 文件 系统 。 本 书后 续 章 节 将 对 RADOS 进 行 深入 介 
绍 。 


(2) 基础 库 LIBRADOS 


LIBRADOS 层 的 功能 是 对 RADOS 进 行 抽象 和 封装 ， 并 向 上 层 提 供 AP1， 以 便 直 接 基 于 RADOS 进 行 应 用 开发 。 需 要 指明 的 是 ，RADOS 是 一 个 对 象 存储 系统 ， 
功能 的 。RADOS 采 用 C++ 开发 ， 所 提供 的 原生 LIBRADOS API 包 括 C 和 C++ 两 种 。 物 理 上 ，LIBRADOS 和 基于 


再 由 后 者 通过 socket 与 RADOS 集 群 中 的 节点 通信 并 完成 各 种 操作 。 


此 ，LIBRADOS 实 现 的 API 是 针对 对 象 存储 
FF 其 上 开发 的 应 用 位 于 同一 台 机 器 ， 因 而 也 被 称 为 本 地 API。 应 用 调用 本 机 上 的 LIBRADOS API, 


(3) 上 层 应 用 接口 
Ceph 上 层 应 用 接口 涵盖 了 RADOSGW (RADOS Gateway) 、RBD (Reliable Block Device) 和 Ceph FS (Ceph File System) ， 其 中 ，RADOSGW 和 RBD 是 在 LIBRADOS 库 的 基础 上 提供 抽象 层次 
更 高 、 更 便于 应 用 或 客户 端 使 用 的 上 层 接口 。 
其 中 ，RADOSGW 是 一 个 提供 与 Amazon S3 和 Swift 兼容 的 RESTful API 的 网 关 ， 以 供 相应 的 对 象 存储 应 用 开发 使 用 。RADOSGW 提 供 的 API 抽 象 层 次 更 高 ， 但 在 类 S3 或 Swift LIBRADOS 的 管理 比 便 
捷 ， 因 此 ， 开 发 者 应 针对 自己 的 需求 选择 使 用 。RBD 则 提供 了 一 个 标准 的 块 设备 接口 ， 常 用 于 在 虚拟 化 的 场景 下 为 虚拟 机 创建 volume。 目 前 ，Red Hat 已 经 将 RBD 驱 动 集成 在 KYM/QEMU 中 ， 以 提高 虚拟 
机 访问 性 能 。 


(4) 应 用 层 


应 用 层 就 是 不 同 场景 下 对 于 Ceph 各 个 应 用 接口 的 各 种 应 用 方式 ， 例 如 基于 


LIBRADOS 直 接 开 发 的 对 象 存储 应 用 ， 基 于 RADOSGW 开 发 的 对 象 存储 应 


， 基 于 RBD 实 现 的 云 主 机 硬盘 等 。 


下 面 就 来 看 看 RADOS 的 架构 。 


2.2 RADOS 架 构 


RADOS 系 统 主要 由 两 个 部 分 组 成 ， 如 图 2-2 所 示 。 


1) OSD: 由 数目 可 变 的 大 规模 OSD (Object Storage Devices) 组 成 的 集群 ， 负 责 存储 所 有 的 Objects 数 据 。 


2) Monitor: Hi/PE&Monitors£BBER SESS. AURERE, faztSSRCluster Map, &rh, Cluster Map 是 整个 RADOS 系 统 的 关键 数据 结构 ， 管 理 集群 中 的 所 有 成 员 、 关 系 和 属性 等 信息 以 及 数据 的 
分 发 。 


Monitor 


2-2 RADOS 系 统 架构 图 示 


对 于 RADOS 系 统 ， 节 点 组 织 管理 和 数据 分 发 策略 均 由 内 部 的 Mon 全 权 负 责 ， 因 此 ， 从 Client 角 度 设计 相对 比较 简单 ， 它 给 应 用 提供 存储 接口 。 


2.3 RADOS 与 LIBRADOS 


LIBRADOS 模 块 是 客户 端 用 来 访问 RADOS 对 象 存储 设备 的 。Ceph 存 储 集群 提供 了 消息 传递 层 协 议 ， 用 于 客户 端 与 Ceph Monitor 与 OSD 交 互 ，LIBRADOS 以 库 形式 为 Ceph Client 提 供 了 这 个 功 
能 ，LIBRADOS 就 是 操作 RADOS 对 象 存储 的 接口 。 所 有 Ceph 客 户 端 可 以 用 LIBRADOS 或 LIBRADOS 里 封装 的 相同 功能 和 对 象 存储 交互 ，LIBRBD 和 LIBCEPHFS 就 利用 了 此 功能 。 你 可 以 用 LIBRADOS 直 接 和 
Ceph 交 互 (如 与 Ceph 兼 容 的 应 用 程序 、Ceph 接 口 等 ) 。 下 面 是 简单 描述 的 步骤 。 


第 1 步 : 获取 LIBRADOS。 
第 2 步 : 配置 集群 句柄 。 
第 3 步 : 创建 IO 上 下 文 。 
第 4 步 : 关闭 连接 。 


LIBRADOS 架 构图 ， 如 图 2-5 所 示 。 


LIBRDB 


IIBRADOS 


network 


OS 


图 2-5 LIBRADOS 架 构图 


先 根据 配置 文件 调用 librados 创 建 一 个 rados， 接 下 来 为 这 个 rados 创 建 一 个 radosclient，radosclient 包 含 3 个 主要 模块 (finisher, Messager, Objector) 。 再 根据 pool 创 建 对 应 的 ioctx， 在 ioctx 中 
能 够 找到 radosclient。 再 调用 osdc 对 生成 对 应 osd 请 求 ， 与 OSD 进 行 通信 响应 请 求 。 


下 面 分 别 介绍 LIBRADOS 的 C 语 言 、Java 语 言 和 Python 语言 示例 。 
1.LIBRADOS C 语 言 示例 


下 面 是 LIBRADOS C 语 言 示例 。 


finclude <stdio.h> 

#include «string.h» 

finclude «rados/librados.h» 

int main (int argc, char argv**) 


1 

/* 声 明 集群 句柄 以 及 所 需 参 数 */ 

rados t cluster; 

char cluster name[] = "ceph"; // 集 群 名 称 

char user name[] = "client.admin";  // 指 定 访问 集群 的 用 户 ， 这 里 用 admin 

uint64 t flags; 

rados ioctx t io; //rados.k T X 6 48 

char *poolname = "data"; // 目 标 Pool 名 

char read res[100]; 

char xattr[] = "en US"; 

/* 指定 参数 初始 化 句柄 */ 

int err; 

err = rados create2(&cluster, cluster name, user name, flags); 

if (err < 0) ( 
fprintf (stderr, "$s: Couldn't create the cluster handle! $sWn", argv[0], strerror(-err)); 
exit(EXIT FAILURE); 

) else ( 
printf ("\nCreated a cluster handle. Wn"); 


l 

/* 读 取 配 置 文件 用 来 配置 句柄 */ 

err = rados conf read file(cluster, "/etc/ceph/ceph.conf"); 

if (err < 0) ( 
fprintf (stderr, "$s: cannot read config file: $sWn", argv[0], strerror(-err)); 
exit(EXIT FAILURE); 

) else ( 
printf ("\nRead the config file.Wn"); 


l 

/* 分 解 参数 */ 

err = rados conf parse argv (cluster, argc, argv); 

if (err « UF ( 
fprintf (stderr, "$s: cannot parse command line arguments: s\n", argv[0], strerror(-err)); 
exit(EXIT FAILURE); 

) else ( 
printf ("\nRead the command line arguments. Mn"); 


l 

/* 连接 集群 */ 

err = rados connect (cluster); 

if (err < 0) ( 
fprintf (stderr, "$s: cannot connect to cluster: $sWn", argv[0], strerror(-err)); 
exit(EXIT FAILURE); 

) else ( 
printf ("\nConnected to the cluster. Wn"); 


} 

// 创 建 Tados 身 柄 上 下 文 

err = rados ioctx create(cluster, poolname, &io); 

if (err «0) { ` 
fprintf (stderr, "$s: cannot open rados pool $s: %s\n", argv[0], poolname, strerror(-err)); 
rados shutdown (cluster); 


exit(EXIT FAILURE); 


) else ( 
printf ("\nCreated I/O context. Mn"); 
l 
// 写 对 象 
err = rados write(io, "hw", "Hello World!", 12, 0); 


if (err < 0) ( 
fprintf (stderr, "$s: Cannot write object V'hwNV" to pool $s: $sWn", argv[0], poolname, strerror(-err)); 
rados ioctx destroy (io); 
rados shutdown (cluster); 
exit(1); 
) else ( 
printf ("\nWrote \"Hello WorldN" to object V'hwN".Nn") ; 


l 

// 设 置 对 象 属性 

err = rados setxattr(io, "hw", "lang", xattr, 5); 

if (err « O) ( 
fprintf (stderr, "$s: Cannot write xattr to pool $s: %s\n", argv[0], poolname, strerror(-err)); 
rados ioctx destroy (io); 
rados shutdown (cluster); 
exit(1); 

) else ( 
printf ("\nWrote V"en USV" to xattr V'langV" for object V'hwN" An") ; 

} 

rados completion t comp; 

// 确 认 异 步 rados 身 栖 成 功 创建 

err = rados aio create completion (NULL, NULL, NULL, &comp); 

if (err < 0) { 
fprintf (stderr, "$s: Could not create aio completion: %s\n", argv[0], strerror(-err)); 
rados ioctx destroy (io); 
rados shutdown (cluster); 
exit(1); 

) else ( 
printf ("\nCreated AIO completion. Wn"); 

l 

/* Next, read data using rados aio read. */ 

/ HIER 

err = rados aio read(io, "hw", comp, read res, 12, 0); 

if (err « 0) ( — 7 
fprintf (stderr, "$s: Cannot read object. $s %s\n", argv[0], poolname, strerror(-err)); 
rados ioctx destroy (io); 
rados shutdown (cluster); 
exit(1); 

) else ( 
printf ("\nRead object \"hw\". The contents are: Mn $s Mn", read res); 


l 

// 等 待 对 象 上 的 操作 完成 

rados wait for complete (comp); 

// s£Xkcomplete4]4s 

rados aio release (comp); 

char xattr res[100]; 

// 获 取 对 象 

err = rados getxattr(io, "hw", "lang", xattr res, 5); 

if (err < 0) ( T 
fprintf (stderr, "$s: Cannot read xattr. $s $sWn", 
rados ioctx destroy (io); 
rados shutdown (cluster); 
exit(1); 

) else ( 
printf ("\nRead xattr V'langV' for object \"hw\". The contents are:\n $s Mn", xattr res); 


l 
// 移 除 对 象 属性 
err = rados rmxattr(io, "hw", "lang"); 
if (err < OF ( 
fprintf(stderr, "$s: Cannot remove xattr. $s $sWn", 
rados ioctx destroy (io); 
rados shutdown (cluster); 
exit(1); 
) else ( 
printf ("\nRemoved xattr \"lang\" for object V'hwN".Nn") ; 


l 
// 删 除 对 象 
err = rados remove(io, "hw"); 
if (err < 0) ( 
fprintf (stderr, "$s: Cannot remove object. $s $sWn", 
rados ioctx destroy (io); 
rados shutdown (cluster); 
exit(1); 
) else ( 
printf ("\nRemoved object V'hwN".Nn") ; 


argv[0], poolname, strerror(-err)); 


argv[0], poolname, strerror(-err)); 


argv[0], poolname, strerror(-err)); 


} 
rados ioctx destroy (io); // 销 毁 1o 上 下 文 
rados shutdown (cluster); //459x ha 


2.LIBRADOS Java 语 言 示例 


下 面 是 LIBRADOS Java 语 言 示例 。 


import com.ceph.rados.Rados; 
import com.ceph.rados.RadosException; 
import java.io.File; 
public class CephClient ( 
public static void main (String args[]){ 


try { 
MEE GE 
Rados cluster = new Rados ("admin"); 
System.out.println("Created cluster handle."); 
File f = new File("/etc/ceph/ceph.conf"); 
// 读 取 配 置 文件 
cluster.confReadFile (f); 
System.out.println ("Read the configuration file."); 
// 连 接 集 群 
cluster.connect () ; 
System.out.println("Connected to the cluster."); 
] catch (RadosException e) ( 
System.out.println (e.getMessage () +" : "^e. getReturnValue ()); 
} 


3.LIBRADOS Python 语言 示例 


下 面 是 LIBRADOS Python 语言 示例 。 


#!/usr/bin/python 
#encoding=utf-8 
import rados, sys 


cluster = rados.Rados (conffile-'/etc/ceph/ceph.conf') dE 36] 45 
print "\n\nI/O Context and Object Operations" 
print Me 


print "MnCreating a context for the 'data' pool" 
if not cluster.pool exists ('data'): 
raise RuntimeError('No data pool exists') 


ioctx = cluster.open ioctx('data') dk pooláfjio EF x 4 45 

print "MnWriting object 'hw' with contents 'Hello World!' to pool 'data'." 
ioctx.write ("hw", "Hello World!") # 写 入 对 象 

print "Writing XATTR 'lang' with value "en US' to object 'hw'" 

ioctx.set xattr("hw", "lang", "en US") # 设 置 对 象 的 属性 

print "\nWriting object 'bm' with contents 'Bonjour tout le monde!' to pool 'data'." 
ioctx.write("bm", "Bonjour tout le monde!") 


print "Writing XATTR 'lang' with value 'fr FR' to object 'bm'" 
ioctx.set xattr("bm", "lang", "fr FR") 
print "WMnContents of object 'hw'Mn------------------------ 


print ioctx.read ("hw") # 读 取 对 象 
print "MnWnGetting XATTR 'lang' from object 'hw'" 
print ioctx.get xattr("hw", "lang") # 读 取 对 象 属性 


print "AnContents of object 'bm'\n------------------------ " 
print ioctx.read ("bm") 
print "MnClosing the connection." 


ioctx.close() TXHiobTx 
print "Shutting down the handle." 
cluster. shutdown () HEKSA 6148 


24 本章 小 结 


本 章 从 宏观 角度 剖析 了 Ceph 架 构 ， 将 Ceph 架 构 分 为 基础 存储 系统 RADOS、 基 于 RADOS 实 现 的 CEPHFS， 基 于 RADOS 的 LIBRADOS 
着 重 讲解 了 RADOS 的 组 成 部 分 MON、OSD 及 其 功能 ， 最 后 解析 LIBRADOS API 的 基本 用 法 。 


31 引言 


数据 分 布 是 分 布 式 存储 系统 的 一 个 重要 部 分 ， 数 据 分 布 算法 至 少 要 考虑 以 下 3 个 因素 。 


1) 故障 域 隔离 。 同 份 数据 的 不 同 副本 分 布 在 不 同 的 故障 域 ， 降 低 数据 损坏 的 风险 。 


2) 负载 均衡 。 数 据 能 够 均匀 地 分 布 在 磁盘 容量 不 等 的 存储 节点 ， 避 免 部 分 节点 空闲 ， 部 分 节点 超载 ， 从 而 影响 系统 性 能 。 


JM 


接口 、 基 于 LIBRADOS 的 应 用 接口 RBD、RADOSGW， 其 中 


3) 控制 节点 加 入 离开 时 引起 的 数据 迁移 量 。 当 节点 离开 时 ， 最 优 的 数据 迁移 是 只 有 离线 节点 上 的 数据 被 迁移 到 其 他 节点 ， 而 正常 工作 的 节点 的 数据 不 会 发 生 迁 移 。 


对 象 存储 中 一 致 性 Hash 和 Ceph 的 CRUSH 算 法 是 使 用 比较 多 的 数据 分 布 算法 。 在 Aamzon 的 Dyanmo 键 值 存储 系统 中 采用 一 致 性 Hash 算 法 ， 并 且 对 它 做 了 很 多 优化 。Openstack 的 Swift 对 象 存储 系统 


也 使 用 了 一 致 性 Hash 算 法 。 


CRUSH (Controlled Replication Under Scalable Hashing) 是 一 种 基于 伪 随 机 控制 数据 分 布 、 复 制 的 算法 。Ceph 是 为 大 规模 分 布 式 存储 系统 (PB 级 的 数据 和 成 百 上 干 台 存 储 设备 ) 而 设计 的 ， 在 大 


规模 的 存储 系统 里 ， 必 须 考虑 数据 的 平衡 分 布 和 负载 (提高 资源 利用 率 ) 、 最 大 化 系统 的 性 能 ， 以 及 系统 的 扩展 和 硬件 容错 等 。CRUSH 就 是 为 解决 以 上 问题 而 设计 的 。 在 Ceph 集 群 里 ，CRUSH 只 需要 一 个 
简洁 而 层次 清晰 的 设备 描述 ， 包 括 存储 集群 和 副本 放置 策略 ， 就 可 以 有 效 地 把 数据 对 象 映射 到 存储 设备 上 ， 且 这 个 过 程 是 完全 分 布 式 的 ， 在 集群 系统 中 的 任何 一 方 都 可 以 独立 计算 任何 对 象 的 位 置 ， 另 外 ， 


存储 设备 的 变更 而 导致 的 数据 迁移 。 


大 型 系统 存储 结构 是 动态 变化 的 (存储 节点 的 扩展 或 者 缩 容 、 硬 件 故障 等 ) ，CRUSH 能 够 处 理 存储 设备 的 变更 (添加 或 删除 ) ， 并 最 小 化 由 了 


31 引言 


数据 分 布 是 分 布 式 存储 系统 的 一 个 重要 部 分 ， 数 据 分 布 算法 至 少 要 考虑 以 下 3 个 因素 。 


B 


1) 故障 域 隔离 。 同 份 数据 的 不 同 副本 分 布 在 不 同 的 故障 域 ， 降 低 数据 损坏 的 风 


2) 负载 均衡 。 数 据 能 够 均匀 地 分 布 在 磁盘 容量 不 等 的 存储 节点 ， 避 免 部 分 节点 空闲 ， 部 分 节点 超载 ， 从 而 影响 系统 性 能 。 


3) 控制 节点 加 入 离开 时 引起 的 数据 迁移 量 。 当 节点 离开 时 ， 最 优 的 数据 迁移 是 只 有 离线 节点 上 的 数据 被 迁移 到 其 他 节点 ， 而 正常 工作 的 节点 的 数据 不 会 发 生 迁 移 。 


对 象 存储 中 一 致 性 Hash 和 Ceph 的 CRUSH 算 法 是 使 用 比较 多 的 数据 分 布 算法 。 在 Aamzon 的 Dyanmo 键 值 存储 系统 中 采用 一 致 性 Hash 算 法 ， 并 且 对 它 做 了 很 多 优化 。OpenStack 的 Swift 对 象 存 储 系统 
也 使 用 了 一 致 性 Hash 算 法 。 


CRUSH (Controlled Replication Under Scalable Hashing) 是 一 种 基于 伪 随 机 控制 数据 分 布 、 复 制 的 算法 。Ceph 是 为 大 规模 分 布 式 存储 系统 (PB 级 的 数据 和 成 百 上 干 台 存 储 设备 ) 而 设计 的 ， 在 大 
规模 的 存储 系统 里 ， 必 须 考虑 数据 的 平衡 分 布 和 负载 (提高 资源 利用 率 ) 、 最 大 化 系统 的 性 能 ， 以 及 系统 的 扩展 和 硬件 容错 等 。CRUSH 就 是 为 解决 以 上 问题 而 设计 的 。 在 Ceph 集 群 里 ，CRUSH 只 需要 一 个 
简洁 而 层次 清晰 的 设备 描述 ， 包 括 存储 集群 和 副本 放置 策略 ， 就 可 以 有 效 地 把 数据 对 象 映 射 到 存储 设备 上 ， 且 这 个 过 程 是 完全 分 布 式 的 ， 在 集群 系统 中 的 任何 一 方 都 可 以 独立 计算 任何 对 象 的 位 置 ; 另外 ， 
大 型 系统 存储 结构 是 动态 变化 的 (存储 节点 的 扩展 或 者 缩 容 、 硬 件 故障 等 ) ，CRUSH 能 够 处 理 存储 设备 的 变更 (添加 或 删除 ) ， 并 最 小 化 由 于 存储 设备 的 变更 而 导致 的 数据 迁移 。 


3.2 ” CRUSH 基本 原理 


众所周知 ， 存 储 设备 具有 吞吐 量 限制 ， 它 影响 读 写 性 能 和 可 扩展 性 能 。 所 以 ， 存 储 系 统 通常 都 支持 条 带 化 以 增加 存储 系统 的 吞吐 量 并 提升 性 能 ,数据 条 带 化 最 常见 的 方式 是 做 RAID。 与 Ceph 的 条 带 化 
最 相似 的 是 RAID 0 或 者 是 “ 带 区 卷 ”。Ceph 条 带 化 提供 了 类 似 于 RAID 0 的 吞吐 量 ，N 路 RAID 镜 像 的 可 靠 性 以 及 更 快速 的 恢复 能 力 。 


在 磁盘 阵列 中 ， 数 据 是 以 条 带 (stripe) 的 方式 贯穿 在 磁盘 阵列 所 有 硬盘 中 的 。 这 种 数据 的 分 配方 式 可 以 弥补 OS 读 取 数据 量 跟 不 上 的 不 足 。 


1) 将 条 带 单 元 (stripe unit) 从 阵列 的 第 一 个 硬盘 到 最 后 一 个 硬盘 收集 起 来 ， 就 可 以 称 为 条 带 (stripe) 。 有 的 时 候 ， 条 带 单元 也 被 称 为 交错 深度 。 在 光纤 技术 中 ， 一 个 条 带 单元 被 叫 作 段 。 


2) 数据 在 阵列 中 的 硬盘 上 是 以 条 带 的 形式 分 布 的 ， 条 带 化 是 指数 据 在 阵列 中 所 有 硬盘 中 的 存储 过 程 。 文 件 中 的 数据 被 分 割 成 小 块 的 数据 段 在 阵列 中 的 硬盘 上 顺序 的 存储 ， 这 个 最 小 数据 块 就 叫 作 条 带 单 


元 。 


决定 Ceph 条 带 化 数据 的 3 个 因素 。 


“对象 大 小 : 处 于 分 布 式 集群 中 的 对 象 拥有 一 个 最 大 可 配置 的 尺寸 (例如 ，2MB、4MB 等 ) ， 对 象 大 小 应 该 足够 大 以 适应 大 量 的 条 带 单 元 。 


宽度 : 条 带 有 一 个 可 以 配置 的 单元 大 小 ，Ceph Client 端 将 数据 写 入 对 象 分 成 相同 大 小 的 条 带 单元 ， 除 了 最 后 一 个 条 带 之 外 ; 每 个 条 带宽 度 ， 应 该 是 对 象 大 小 的 一 小 部 分 ， 这 样 使 得 一 个 对 象 可 以 


“ 条 带 总 量 : Ceph 客 户 端 写 入 一 系列 的 条 带 单元 到 一 系列 的 对 象 ， 这 就 决定 了 条 带 的 总 量 ， 这 些 对 象 被 称 为 对 象 集 ， 当 Ceph 客 户 端 端 写 入 的 对 象 集合 中 的 最 后 一 个 对 象 之 后 ， 它 将 会 返回 到 对 象 集合 中 
的 第 一 个 对 象 处 。 


3.3” CRUSH 关系 分 析 


从 本 质 上 讲 ，CRUSH 算 法 是 通过 存储 设备 的 权重 来 计算 数据 对 象 的 分 布 的 。 在 计算 过 程 中 ， 通 过 Cluster Map (集群 映射 )、Data Distribution Policy (数据 分 布 策略 ) 和 给 出 的 一 个 随机 数 共同 决定 
数据 对 象 的 最 终 位 置 。 


1.Cluster Map 


Cluster Map 记 录 所 有 可 用 的 存储 资源 及 相互 之 间 的 空间 层次 结构 (集群 中 有 多 少 个 机 架 、 机 架 上 有 多 少 服务 器 、 每 个 机 器 上 有 多 少 磁盘 等 信息 ) 。 所 谓 的 Map， 顾 名 思 义 ， 就 是 类 似 于 我 们 生活 中 的 
地 图 。 在 Ceph 存 储 里 ， 数 据 的 索引 都 是 通过 各 种 不 同 的 Map 来 实现 的 。 另 一 方面 ，Map 使 得 Ceph 集 群 存储 设备 在 物理 层 作 了 一 层 防护 。 例 如 ， 在 多 副本 (常见 的 三 副本 ) 的 结构 上 ， 通 过 设置 合理 的 
Map (故障 域 设 置 为 Host 级 ) ， 可 以 保证 在 某 一 服务 器 死机 的 情况 下 ， 有 其 他 副本 保留 在 正常 的 存储 节点 上 ， 能 够 继续 提供 服务 ， 实 现存 储 的 高 可 用 。 设 置 更 高 的 故障 域 级 别 (如 Rack、Row 等 ) 能 保证 
整 机 柜 或 同一 排 机 柜 在 掉 电 情 况 下 数据 的 可 用 性 和 完整 性 。 


(1) Cluster Map 的 分 层 结构 


Cluster Map 由 Device 和 Bucket 构 成 。 它 们 都 有 自己 的 ID 和 权重 值 ， 并 且 形 成 一 个 以 Device 为 叶子 节点 、Bucket 为 躯干 的 树 状 结构 ， 如 


网 


3-3 所 示 。 
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3-3. CRUSH 架构 图 


Bucket 拥 有 不 同 的 类 型 ， 如 Host、Row、Rack、Room 等 ， 通 常 我 们 默认 把 机 架 类 型 定义 为 Rack， 主 机 类 型 定义 为 Host， 数 据 中 心 (IDC 机 房 ) 定 义 为 Data Center。Bucket 的 类 型 都 是 虚拟 结构 ， 
可 以 根据 自己 的 喜好 设计 合适 的 类 型 。Device 节 点 的 权重 值 代表 了 存储 设备 的 容量 与 性 能 。 其 中 ， 磁 盘 容量 是 权重 大 小 的 关键 因素 。 


OSD 的 权重 值 越 高 ， 对 应 磁盘 会 被 分 配 写 入 更 多 的 数据 。 总 体 来 看 ， 数 据 会 被 均匀 写 入 分 布 于 群集 所 有 磁盘 ， 从 而 提高 整体 性 能 和 可 靠 性 。 无 论 磁盘 的 规格 容量 ， 总 能 够 均匀 使 用 。 


关于 OSD 权 重 值 的 大 小 值 的 配 比 ， 官 方 默认 值 设 置 为 1TB 容 量 的 硬盘 ， 对 应 权重 值 为 1。 


可 以 在 /etc/init.d/ceph 原 码 里 查看 相关 的 内 容 。 


363 get conf osd weight "" "osd crush initial weight" 


364 defaultweight-"$(df -P -k $osd data/. | tail -1 | awk '( print sprintf("$.2f",$2/1073741824) ]')"  ### 此 处 就 是 ceph 默 认 权 重 的 设置 值 
get conf osd keyring "$osd data/keyring" "keyring" 
366 do cmd okfail "timeout 30 SBINDIR/ceph -c $conf --name-osd.$id --keyring-$osd keyring osd crush create-or-move -- $id ${osd weight:-$(defaultweight:-1)) $os 


(2) 恢复 与 动态 平衡 


在 默认 设置 下 ， 当 集群 里 有 组 件 出 现 故 障 时 (主要 是 OSD， 也 可 能 是 磁盘 或 者 网 络 等 ) ，Ceph 会 把 OSD 标 记 为 down， 如 果 在 300s 内 未 能 回复 ， 集 群 就 会 开始 进行 恢复 状态 。 这 个 “300s” 可 以 通 
过 “mon osd down out interval” 配 置 选 项 修改 等 待 时 间 。PG (PlacementGroups) 是 Ceph 数 据 管理 (包括 复制 、 修 复 等 动作 ) 单元 。 当 客户 端 把 读 写 请 求 (对象 单 元 ) 推送 到 Ceph 时 ， 通 过 CRUSH 
提供 的 Hash 算 法 把 对 象 映射 到 PG。PG 在 CRUSH 策 略 的 影响 下 ， 最 终 会 被 映射 到 OSD 上 。 


2.Data Distribution Policy 


Data Distribution Policy 由 Placement Rules 组 成 。Rule 决 定 了 每 个 数据 对 象 有 多 少 个 副本 ， 这 些 副 本 存储 的 限制 条 件 (比如 3 个 副本 放 在 不 同 的 机 架 中 ) 。 一 个 典型 的 rule 如 下 所 示 。 


rule replicated ruleset { ##rule 名 字 


ruleset 0 # rule 的 Id 

type replicated 4H 类 型 为 副本 模式 ， 另 外 一 种 模式 为 纠 删 码 (EC) 
min size 1 H 如 果 存 储 池 的 副本 数 大 于 这 个 值 ， 此 rule 不 会 应 用 
max size 10 HE 如 要 存储 池 的 副本 数 大 于 这 个 值 ， 此 rule 不 会 应 用 


step take default ## default root 为 入 口 
step chooseleaf firstn 0 type host ## 隔离 域 为 host 级 ， 即 不 同 副本 在 不 同 的 主机 上 
step emit d 提交 


根据 实际 的 设备 环境 ， 可 以 定制 出 符合 自己 需求 的 Rule， 详 见 第 10 章 。 
3.CRUSH 中 的 伪 随 机 


先 来 看 一 下 数据 映射 到 具体 OSD 的 函数 表达 形式 。 


CRUSH (x) -> (osd1, osd2, osd3http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/. .http://www.hzcourse.com/r 


CRUSH 使 用 了 多 参数 的 Hash 函 数 在 Hash 之 后 ， 映 射 都 是 按 既 定 规则 选择 的 ， 这 使 得 从 x 到 OSD 的 集合 是 确定 的 和 独立 的 。CRUSH 只 使 用 Cluster Map. Placement Rules、X。CRUSH 是 伪 随 机 算 
法 ， 相 似 输入 的 结果 之 间 没 有 相关 性 。 关 于 伪 随 机 的 确认 性 和 独立 性 ， 以 下 我 们 以 一 个 实例 来 展示 。 


[root@host-192-168-0-16 ~]# ceph osd tree 


ID WEIGHT TYPE NAME UP/DOWN REWEIGHT  PRIMARY-AFFINITY 
-1 0.35999 root default 

-3 0.09000 host host-192-168-0-17 

2 0.09000 osd. up 1.00000 1.00000 
-4 0.09000 host host-192-168-0-18 

3 0.09000 osd.3 up 1.00000 1.00000 
-2 0.17999 host host-192-168-0-16 

0 0.09000 osd.0 up 1.00000 1.00000 
1 0.09000 osd.1 up 1.00000 1.00000 


以 上 是 某 个 Ceph 集 群 的 存储 的 CRUSH 结 构 。 在 此 集群 里 我 们 手动 创建 一 个 pool， 并 指定 为 8 个 PG 和 PGP。 


[root@host-192-168-0-16 ~]# ceph osd pool create crush 8 8 
pool 'crush' created 


Qug 


PGP 是 PG 的 逻辑 承载 体 ， 是 CRUSH 算 法 不 可 缺少 的 部 分 。 在 Cepbh 集 群 里 ， 增 加 PG 数 量 ，PG 到 OSD 的 映射 关系 就 会 发 生变 化 ， 但 此 时 存储 在 PG 里 的 数据 并 不 会 发 生 迁 移 ， 只 有 当 PGP 的 数量 也 增加 时 ， 
数据 迁移 才 会 真正 开始 。 关 于 PG 和 PGP 的 关系 ， 假 如 把 PG 比 作 参加 宴会 的 人 ， 那 么 PGP 就 是 人 坐 的 椅子 ， 如 果 人 员 增 加 时 ， 人 的 座位 排序 就 会 发 生变 化 ， 只 有 增加 椅子 时 ， 真 正 的 座位 排序 变更 才 会 落实 。 
因此 ， 人 和 椅子 的 数量 一 般 都 保持 一 致 。 所 以 ， 在 Ceph 里 ， 通 常 把 PGP 和 PG 设置 成 一 致 的 。 


可 以 查看 PG 映射 OSD 的 集合 ， 即 PG 


[root@host-192-168-0-16 ~]# ceph pg dump | grep “22\. 


dumped all in format plain 


22.1 [1,2,3] 

22.0 [1,2,3] 
22.3 [3,1,2] 
22.2 [3,2,0] 
22.5 [1,3,2] 

22.4 [3,1,2] 
2241] [2,1,3] 
22.6 [3,0,2] 


体 分 配 到 OSD 的 归 


属 。 


| awk '(print $1 "Nt" 


S17)" 


上 面 示例 中 ， 第 一 列 是 PG 的 编号 (其 中 22 表 示 的 Pool 的 ID) ,共计 8 个 ， 第 二 列 是 PG 映射 到 


了 具体 的 OSD 集 合 。 


## 22 表示 Pool id #ł 


如 “22.1[1,2,3]” 表 示 PG 22.1 分 别 在 OSD1、OSD2 和 OSD3 分 别 存储 副本 。 


在 Ceph 集 群 里 ， 当 有 数据 对 象 要 写 入 集群 时 ， 需 要 进行 两 次 映射 。 第 一 次 从 object 一 PG， 第 二 次 是 PG 一 OSD set。 每 一 次 的 映射 都 是 与 其 他 对 象 无 相关 的 。 以 上 充分 体现 了 CRUSH 的 独立 性 (充分 分 


BO 和 确定 性 (可 确定 的 存储 位 置 ) 。 
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晚 的 Ceph RBD 和 Ceph Radosgw 发 
重视 。 
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4.1 


Ceph Filesystem 简 称 Ceph FS， 是 一 个 支持 POSIX 接 口 
展 反而 比较 活跃 ， 社 区 的 发 


晚 的 Ceph RBD 和 Ceph Radosgw 发 
重视 。 


Ceph 官 方 社区 于 2016 年 4 月 21 日 发 布 了 Jewel V10.2.0 版 本 ，Ceph FS 在 该 版 本 中 被 提 到 它 是 第 一 个 公开 宣称 稳定 的 版 本 ， 至 于 生产 环境 中 的 使 
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以 上 掌握 的 要 点 ， 为 后 


展开 ， 讲 述 了 CRUSH 的 基本 原理 以 及 CRUSH 的 特性 。 读 者 可 以 了 解 Ceph 基 本 要 素 的 概念 ， 
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的 深入 学 习 打 好 坚实 的 基础 。 
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RBD 块 存储 是 Ceph 提 供 的 3 种 存储 类 型 中 使 


最 广泛 、 最 稳定 的 存储 类 型 。RBD 块 设备 类 似 了 


三 大 存储 访问 类 型 


重点 应 该 把 握 Ceph 的 Object、PG、Pool 等 基本 核心 概念 ， 


熟悉 读 写 
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或 许 


由 于 云 计算 大 潮 的 突起 ， 比 Ceph FS 起 步 
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. Ceph FS 文件 系统 存储 类 型 继承 了 RADOS 的 容错 性 和 扩 


后 端 OSD 数 据 存储 中 。MDS 类 似 于 ceph-mon， 是 一 个 服务 进程 ， 在 使 


， 目 前 Ceph FS 正在 越 来 越 被 


和 反馈 情况 还 需要 时 间 来 证 明 。 
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和 反馈 情况 还 需要 时 间 来 证 明 。 


展 性 ， 相 比 NFS 或 CIFS，Ceph FS 可 以 提 


后 端 OSD 数 据 存储 中 。MDS 类 似 于 ceph-mon， 是 一 个 服务 进程 ， 在 使 


Ceph FS 前 首先 要 安装 和 


磁盘 ， 它 可 以 挂 载 到 物理 机 或 虚拟 机 中 ， 挂 载 的 方式 通常 有 以 下 两 种 。 


“Kernel 模块 (简称 KRBD) 方式 。 


利用 QEMU 模 拟 器 通过 librbd 方 式 。 


TU 
> 
DN 


Y 


本 节 就 RBD 块 设备 的 两 种 使 用 方式 以 及 相关 操作 进行 简 和 


4.3 Object 对 象 存储 


4.3. RGW 介 绍 


RGW 是 Ceph 对 象 存储 网 关 服务 RADOS Gateway 的 简称 ， 是 一 套 基 于 Librados 接 口 封装 而 实现 的 FastCGI 服 务 ， 对 外 提供 RESTful 风 格 的 对 象 存储 数据 访问 和 管理 接口 。RGW 基 于 HTTP 协 议 标 准 ， 因 
此 非常 适用 于 Web 类 的 互联 网 应 用 场景 ， 用 户 通 过 使 用 SDK 或 者 其 他 客户 端 工具 ， 能 够 很 方便 地 接 入 RGW 进 行 图 片 、 视 频 以 及 各 类 文件 的 上 传 或 下 载 ， 并 设置 相应 的 访问 权限 ， 共 享 给 其 他 用 户 ， 形 成 最 简 


的 网 盘 分 享 ， 具 体 过 程 如 图 4-6 所 示 。 


RGW 提 供 的 兼容 接口 有 以 下 3 项 。 


1) S33ReHELI: 兼容 大 部 分 Amazon S3 API 标 准 ， 详 见 S3 接 口 兼容 列表 ( 见 表 4-1) 。 目 前 这 套 接口 应 用 比较 广泛 ， 也 是 本 书 介绍 的 重点 。 


2) Swift 兼容 接口 : 兼容 OpenStack Swift API. 


3) Admin 管 理 接口 : 实现 对 53 用 户 、Bucket 和 Quota 等 信息 的 统一 管理 。 


其 中 ，S3 兼 容 接口 提供 了 一 套 简单 的 Web 服 务 接口 ， 可 随时 随地 通过 HTTP 的 方式 在 网 络 上 的 任何 位 置 存储 和 检索 任意 数量 的 数据 ， 是 一 套 非 常 实 用 的 对 象 存储 服务 标准 。 很 多 互联 网 公司 的 产品 ， 比 
如 图 片 、 视 频 一 类 资源 的 存储 与 发 布 等 都 是 借助 这 套 标准 服务 来 实现 的 ， 节 约 了 大 量 的 采购 、 开 发 和 部 署 运 维 成 本 ， 特 别 适 合 一 次 写 入 ， 多 用 户 同时 读 取 的 场景 。 


于 4-6 为 Rados Gateway 服 务 的 功能 组 成 。 


RADOSGW 


可 兼容 S3 API 可 兼容 Swift API | Admin Ops API 


FastCGL 


Monitor 


图 4-6 Rados Gateway 服 务 的 功能 组 成 


如 果 读者 想 深入 了 解 其 他 接口 内 容 请 参考 以 下 内 容 。 


' Swift 兼容 列表 : http:/ /docs.ceph.com/docs/master/radosgw /swift/ o 


- admin Z24& vt 4-28 38 4 A http: / /docs.ceph.com/docs/master/radosgw /adminops/ o 
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本 章 介绍 了 Ceph 的 3 大 存储 访问 类 型 ， 以 及 它们 的 简单 介绍 、 部 署 、 使 用 与 使 用 场景 。 通 过 本 章 学 习 ， 读 者 可 以 根据 需求 来 选择 和 设计 存储 方案 。 


第 5 章 ”可 视 化 管理 Calamari 


5.1 认识 Calamari 


Calamari 是 一 个 管理 和 监控 Ceph 集 群 的 Web 平 台 ， 提 供 了 漂亮 的 管理 和 监控 界面 ， 还 提供 了 一 套 RESTful API 接 口 ， 目 的 是 为 了 简化 Ceph 集 群 管理 。 起 初 ，Calamari 是 InkTank 公 司 的 一 款 商 业 软 
件 ， 是 InkTank 向 其 客户 提供 的 Ceph 企 业 版 的 产品 。 在 InkTank 被 Red Hat 收 购 之 后 ，Red Hat 在 2014 年 5 月 30 日 将 其 开源 。 


Calamari Rest API 文 档 : http://calamari.readthedocs.org/en/latest/calamari_rest/index.html。 
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件 ， 是 InkTank 向 其 客户 提供 的 Ceph 企 业 版 的 产品 。 在 InkTank 被 Red Hat 收 购 之 后 ，Red Hat 在 2014 年 5 月 30 日 将 其 开源 。 


Calamari Rest APIX f: http://calamari.readthedocs.org/en/latest/calamari rest/index.html, 


本 书 是 以 在 CentOS 7.x 版 本 的 操作 系统 上 使 用 源码 编译 、 安 装 Calamari 为 例 ， 并 且 假 设 已 经 搭建 好 了 一 套 可 用 的 Ceph 集 群 。 


如 何在 Ubuntu 操作 系统 上 安装 Calamari， 请 参见 官方 链接 : 


http://calamari.readthedocs.org/en/latest/development/index.html 
http://calamari .readthedocs.org/en/latest/operations/index.html 


Ceph 官 方 目前 提供 了 在 Ubuntu14.04 操 作 系 统 上 安装 Calamari 的 deb 软 件 包 ， 链 接 如 下 。 


http: //download.ceph.com/calamari/ 


Calamari 安 装 包括 calamari-server、calamari-client 和 diamond 三 部 分 。 


calamari-server 提 供 平台 管理 服务 ， 使 用 了 SaltStack 管 理 客户 端 。 


calamari-client (现在 改名 为 romana) 是 一 个 HTTP 模 块 ， 为 客户 端 使 用 Calamari API 提 供 服 务 。 


diamond 是 一 个 Python 进程 ， 用 来 收集 Ceph 存 储 节点 上 的 集群 数据 和 系统 信息 并 发 送 给 Graphite， 每 个 Ceph 节 点 都 需要 安装 diamond。 


5.3 ”基本 操作 


5.3.1 登录 Calamari 


Calamari 管 理 平台 默认 使 用 80 端 口 ， 直 接 在 浏览 器 中 输入 IP 地 址 即 可 。 


http://172.16.*.* 


之 前 设置 的 用 户 名 和 密码 登录 ， 默 认 进 入 DASHBOARD 页 面 ， 如 图 5-2 所 示 。 


DASHBOARD 页 面 中 由 上 到 下 展示 结果 说 明 如 下 。 


“HEALTH 和 集群 健康 状态 ， 图 中 表示 集群 状态 为 HEALTEH_OK。 

- OSD 数 量 及 状态 ， 图 中 显示 集群 共有 6 个 OSD 并 且 全 部 为 工作 状态 。 

| MONITORS 数 量 及 状态 ， 图 中 显示 集群 共有 3 个 Monitor 并 且 全 部 为 工作 状态 。 
| POOLS 存 储 池 数量 和 状态 ， 显 示 集 群 中 共有 5 个 存储 池 。 

: PG (Placement Group). 数量 和 状态 。 

“ IOPS 统 计 ， 统 计 了 整个 集群 的 磁盘 读 写 情况 。 


` USAGE: 集群 资源 使 用 状态 ， 图 中 显示 了 集群 资源 总 量 及 使 用 量 。 


: HOSTS: 集群 主机 数量 和 存活 状态 。 


€ e 172.16.6.113/dashboard/ 


sb, PLACEMENT GROUP STATUS 


544/544 


12:00 


54 本章 小 结 


Calamari 包 括 前 端 和 后 端 两 个 部 分 ， 每 个 部 分 都 有 各 自 的 代码 库 。 


前 端 (Frontend) : 这 是 一 个 基于 浏览 器 的 用 户 界面 ， 主 要 用 JavaScript 实 现 。 前 端的 实现 利 
护 。Calamari 前 端的 代码 以 MIT license 开 源 ， 可 以 从 下 面 的 链接 获取 它 代码 : https://github.com/ceph/calamari-clients。 


后 端 (Backend) : 后 端 是 Calamari 的 核心 部 分 ， 用 Python 实现 。Calamari 后 端 利 
组 新 的 RESTful AP1， 用 于 和 Ceph 以 及 其 他 系统 之 间 进 行 集成 。Calamari 对 新 版 本 进行 了 重新 开发 ， 利 有 
RESTful API， 在 其 功能 的 实现 上 有 一 些 局 限 性 。Calamari 的 后 端 代码 在 LGPL2+license 下 : 


h 


DASHBOARD WORKBENCH 


Q2 f @ MONITORS 


中 局 


Quorum 


18:00 


图 5-2 DASHBOARD Ji H 


的 是 Calamari 的 RESTful AP1， 并 且 遵 循 模块 化 方法 构建 。 因 此 ， 前 端的 每 个 组 件 都 可 以 独立 更 新 和 维 


一 些 组 件 如 SaltStack、ZeroRPC、Graphite、Django-rest-framework、Django 和 gevent 等 实现 。 它 提供 了 一 
这 些 新 的 RESTful APl 来 完成 与 Ceph 集 群 之 间 的 交互 。Calamari 此 前 版 本 中 使 用 的 是 Ceph 的 
开源 ， 可 以 通过 https://github.com/ceph/calamari 获 取 其 源码 。 


Calamari 的 文档 (http://calamari.readthedocs.org) 很 完善 。 无 论 是 对 于 Calamari 的 使 用 者 、 开 发 者 或 者 要 利用 Calamari RESTful API 进 行 开发 的 人 员 ，Calamari 文 档 都 是 学 习 Calamari 的 一 个 好 


选择 。 像 Ceph 一 样 ，Calamari 也 是 被 作为 一 个 上 游 产 品 来 开发 的 。 你 可 以 通过 Calamari 


来 参与 Calamari 的 开发 。 


参考 资料 


[1]http://calamari.readthedocs.org. 


[2]https://zphj1987.gitbooks.io/calamaribook/content/index.html. 


的 IRC 频 道 irc: Wirc.oftc.net/ceph、 注 册 邮 件 列表 ceph-calamari@ceph.com 或 者 在 GitHub 上 发 送 pull request 


第 6 章 ”文件 系统 一 一 高 性 能 计算 与 大 数据 


6.1 Ceph FS 作为 高 性 能 计算 存储 


根据 前 面 的 学 习 ， 已 经 安装 了 MDS 组 件 ， 测 试 了 Ceph FS 挂 载 。 


Ceph FS 有 两 种 挂 载 方式 : 一 种 是 通过 Ceph FS 内 核 模块 (Kernel Module) ， 另 外 一 种 是 通过 Ceph-Fuse 


RHEL/CentOS 从 7.1 起 ，Ubuntu 从 14.04 起 ， 它 们 的 内 核 都 支持 Ceph FS 模块 。 若 是 RHEL/CentOS 6.x 等 较 老 的 操作 系统 


内 核 ) 。 以 下 介绍 通过 内 核 和 FUSE 挂 载 Ceph FS 的 方式 。 


(1) 通过 Ceph FS 内 核 模块 挂 载 


其 


Ea 


户 空间 (User Space) ， 下 面 分 别 介绍 这 两 种 挂 载 方式 。 


内 核 中 未 包含 Ceph FS 模块 ， 那 么 需 通 过 FUSE 方 式 挂 载 (或 者 编译 更 新 的 


通过 内 核 模块 挂 载 时 ， 如 果 使 用 Ceph 客 户 端 认证 方式 ， 则 提供 访问 授权 信息 。 通 过 -o 提 供 账户 admin 和 认证 密 钥 ，-t 提 供 文件 系统 类 型 : 


[root@compute-nodel ~]# mount -o name=admin, secret-AQC9xRBViMV9AhAAcgxgOTId-HgpJ4haXMuFZw-- -t ceph 10.89.13.71:6789:/ /mnt/ 


[rootücompute-nodel ~]# df -TH 

Filesystem Type Size Used Avail Use$ Mounted on 
/dev/vdal xfs 50G 14G 37G 27$ / 

devtmpfs devtmpfs 4.1G 0 4.1G 0$ /dev 

tmpfs tmpfs 4.2G 0 4.2G 0$ /dev/shm 

tmpfs tmpfs 4.2G 18M 4.1G 1$ /run 


tmpfs tmpfs 4.2G 0 4.2G 0$ /sys/fs/cgroup 
/dev/vdcl xfs 108G 82G 26G 77$ /data 
/dev/vddl xfs 215G 70G 146G 33$ /datal 

tmpfs tmpfs 821M 8.2k 821M 1$ /run/user/0 
10.89.13.71:6789:/ ceph 1.2T 32G 1.2T 3$ /mnt 


(2) 通过 FUSE 方 式 挂 载 


[rootGcompute-nodel ~]# mkdir -p /cephfs/ 
[rootGcompute-nodel ~]# ceph-fuse -m 10.89.13.71:6789 /cephfs/ 
ceph-fuse[29831]: starting ceph client 
ceph-fuse[29831]: starting fuse 
[rootécompute-nodel ~]# df -Th 

Filesystem Type Size Used Avail Use$ Mounted on 
/dev/vdal xfs 46G 13G 34G 27$ / 

devtmpfs devtmpfs 3.9G 0 3.9G 0$ /dev 

tmpfs tmpfs 3.9G 0 3.9G 0$ /dev/shm 

tmpfs tmpfs 3.9G 17M 3.9G 1$ /run 

tmpfs tmpfs 3.9G 0 3.9G 0$ /sys/fs/cgroup 
/dev/vdcl xfs 100G 77G 24G 77$ /data 

/dev/vddl xfs 200G 65G 136G 33$ /datal 

tmpfs tmpfs 783M 8.0K 783M 1$ /run/user/0 
ceph-fuse fuse.ceph-fuse 1.1T 29G 1.1T 3$ /mnt 


以 上 两 个 操作 分 别 让 Ceph FS 通过 内 核 模块 和 FUSE 方 式 进行 了 挂 载 。 


在 高 性 能 计算 领域 ，MPI 是 重要 的 分 布 式 计算 模型 。MPI 是 一 种 基于 消息 传递 的 并 行 编程 技术 ， 其 定义 了 一 组 具有 可 移植 性 的 编程 接口 。 通 过 MPI 编 程 模型 ， 程 序 员 能 编写 基于 消息 通信 的 应 用 程序 ， 
而 这 个 应 用 程序 能 在 不 同 的 节点 上 启动 并 协调 工作 ， 它 们 需 访问 共享 存储 ， 而 Ceph FS 正好 提供 共享 存储 的 访问 。 


各 个 厂商 或 组 织 遵循 这 些 标 准 实现 自己 的 MPI 软 件 包 ， 典 型 的 实现 包含 开放 源码 的 MPICH、OpenMPI、LAM-MPI 以 及 商业 实现 Intel MPI。 其 中 ，OpenMPI 实 现 了 MPI-1.2 和 MPI-2.0 的 通信 规范 ， 
并 支持 TCP 和 RDMA (Remote Direct Memory Access) ， 是 常用 的 MPI 实 现 库 。CentOs 7.2 默 认 带 有 OpenMPIl 软 件 包 ， 安 装 过 程 如 下 。 


(1) 下 载 OpenMPI 


[root@compute-nodel ~]# cd /cephfs/ 

[root@compute-nodel ~]# mkdir source && mkdir software 

[rootécompute-nodel ~]# cd source 

[root(compute-nodel ~]# wget -c http://www.open-mpi.org/software/ompi/v1l.10/downloads/openmpi-1.10.1.tar.bz2 
[rootécompute-nodel ~]# tar xf openmpi-1.10.1.tar.bz2 

[rootécompute-nodel ~]# cd openmpi-1.10.1 

[root(compute-nodel ~]# ./configure --prefix-/cephfs/software/openmpi-1.10.1 

[rootécompute-nodel ~]# make -j4 && make install 


至 此 ，OpenMPI 编 译 安装 完毕 。 
(2) 设置 OpenMPI 环 境 变量 


编辑 BASH 脚 本 /cephfs/software/openmpi-1.10.1/run.sh， 填 写 以 下 内 容 。 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 
export OMPI HOME=/cephfs/software/openmpi-1.10.1/ 

export PATH=$OMPI HOME/bin:$PATH 

export LD LIBRARY PATH-SOMPI HOME/lib:$LD LIBRARY PATH 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 


编写 完毕 后 ， 执 行 环境 变量 设 定 : source/cephfs/software/openmpi-1.10.1/run.sh, 


(3) 蒙特 卡 洛 法 计算 PI 值 示例 代码 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 
#include <stdlib.h> ES 
finclude «time.h» 
finclude <stdio.h> 
finclude "mpi.h" 
finclude <stdio.h> 
finclude <iostream> 
using namespace std; 
long long int MC(long long int mynumber,int myrank) ( 
int mycount-0; 
double x,y; 
int i-0; 
for (i;i«mynumber; i++) { 
x-2.0* (((double)rand())/RAND MAX)-1 
y-2.0* ( ( (double) rand () ) /RAND MAX) -1 
if (x*x+y*y<1.0) 
mycounttt; 


.0; 
.0; 


) 
return mycount; 
} 
void serial() { 
int Allnumber=50000000; 
int count=0; double x,y,pi; 
double stime,etime,atime; 
stime-clock(); 
for(int i-0;i«Allnumber;i**) ( 
x-2.0* (((double)rand())/RAND MAX) 
y-2.0* ( ((double)rand())/RAND MAX) 
if (x*xty*y«1l.0) E 
counttt; 


-1.0; 
-1.0; 


) 

pi-4.0*count/Allnumber; 

etime-clock(); 

atime- (etime-stime) /1000; 
cout««"pi-"««pi««",time-"««atime««endl; 
//printf("pi- $12.12f ,alltime-$.3f ",pi,atime); 


} 

int main(int argc,char* argv[]) ( 

int myrank, size; 

MPI Init (&argc, &argv); 

MPI Comm size(MPI COMM WORLD, &size); 

MPI Comm rank (MPI COMM WORLD, &myrank); 

long long int topinnumber,myinnumber,mynumber, allnumber; 

double x,y,pi,stime,etime,atime; 

stime = MPI Wtime(); 

allnumber = 50000000; 

mynumber = allnumber/size; 

if(myrank != 0) ( 
myinnumber = MC (mynumber,myrank); 
MPI Send(&myinnumber,l,MPI LONG LONG,0,0,MPI COMM WORLD); 
cout «« myrank «« " of " << size «« " " «€ myinnumber << endl; 
//printf("$d of $d : d\n", myrank, size, myinnumber); 


) else ( 
myinnumber = MC (mynumber,myrank); 
cout << myrank << " of " << size << " : " << myinnumber << endl; 


//printf("$d of $d : $dWn",myrank,size,myinnumber); 
topinnumber = myinnumber; 


for (int source = 1;source < size; source) ( 
MPI Recv(&myinnumber,1,MPI LONG LONG, source, 0,MPI COMM WORLD,MPI STATUS IGNORE); 
topinnumber += myinnumber; | ll ul B m a 
} 
pi = 4.0 * topinnumber / allnumber; 
} 
etime = MPI Wtime(); 
atime = etime - stime; 
if(myrank == 0) 
cout << "pi=" << pi << ",time=" << atime << endl; 
//printf("pi = $12.12d ,time = &.3d\n",pi,atime); 
MPI Finalize (); 
serial (); 
return 0; 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 


(4) 通过 OpenMPI C++ 并 行 编译 器 编译 


mpic++ m pi.cpp -o m pi 


(5) 查看 程序 动态 链接 库 (查看 其 运行 是 否 满足 环境 依赖 ) 


[root(performance mpi]# ldd m pi 

linux-vdso.so.1 => (0x00007ffd92977000) 

libmpi cxx.so.1 => /cephfs/software/openmpi-1.10.1//lib/libmpi cxx.so.1 (0x00007fc1a8096000) 
libmpi.so.12 => /cephfs/software/openmpi-1.10.1//lib/libmpi.so.12 (0x00007f£cla7dba000) 
libstdc-t.so.6 => /usr/lib64/libstdct*.so.6 (0x00007fc1a7a9b000) 

libm.so.6 => /usr/lib64/libm.so.6 (0x00007fc1a7799000) 

libgcc s.so.1 => /usr/lib64/libgcc s.so.1 (0x00007fc1a7582000) 

libpthread.so.0 => /usr/lib64/libpthread.so.0 (0x00007£c1a7366000) 

libc.so.6 => /usr/lib64/libc.so.6 (0x00007fcla6fa5000) 

libibverbs.so.l => /usr/lib64/libibverbs.so.1 (0x00007f£c1a6d92000) 

libopen-rte.so.12 => /cephfs/software/openmpi-1.10.1/1ib/libopen-rte.so.12 (0x00007fc1a6016000) 
libopen-pal.so.13 => /cephfs/software/openmpi-1.10.1/1ib/libopen-pal.so.13 (0x00007fc1a6838000) 
libnuma.so.1 => /usr/lib64/libnuma.so.1 (0x00007fc1a6625000) 

libpciaccess.so.0 => /usr/lib64/libpciaccess.so.0 (0x00007fc1a6421000) 

libdl.so.2 => /usr/lib64/libdl.so.2 (0x00007fc1a621d000) 

librt.so.1 => /usr/lib64/librt.so.1 (0x00007fc1a6014000) 

libutil.so.1 => /usr/lib64/libutil.so.1 (0x00007fc1a5e11000) 

/lib64/ld-linux-x86-64.s0.2 (0x00007f£c1a82b1000) 

libnl-route-3.s0.200 => /usr/lib64/libnl-route-3.s0.200 (0x00007fc1a5bc1000) 

libnl-3.so0.200 => /usr/lib64/libnl-3.s0.200 (0x00007fc1a59a5000) 


(6) 通过 mpirun 执 行 PI 计算 程序 


time mpirun --allow-run-as-root -np 4 ./m pi 


上 述 mpirun 在 本 机 执行 m_pi 计 算 程序 时 ， 将 会 启动 4 个 m_pi 进 程 ， 并 且 这 4 个 进程 通过 TCP 协 议 进行 消息 通信 。 用 户 可 通过 编写 主机 文件 (hostfile) ， 指 定 mpirun 将 多 个 并 行 任务 派送 到 不 同 的 
运行 。 通 过 使 用 Ceph FS 共享 文件 系统 ，OpenMPI 和 应 用 存储 均 存 放 其 中 ， 每 个 计算 节点 立即 在 相同 路 径 启 动 mpirun 执 行 计算 任务 。 
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6.1 Ceph FS 作为 高 性 能 计算 存储 


根据 前 面 的 学 习 ， 已 经 安装 了 MDS 组 件 , 测试 了 Ceph FSER. 


Ceph FS 有 两 种 挂 载 方式 : 一 种 是 通过 Ceph FS 内 核 模 块 (Kernel Module) ， 另 外 一 种 是 通过 Ceph-Fuse 用 户 空间 (User Space) , F 


分 别 介 绍 这 两 种 挂 载 方式 。 


回 


RHEL/CentOS 从 7.1 起 ，Ubuntu 从 14.04 起 ， 它 们 的 内 核 都 支持 Ceph FS 模块 。 若 是 RHEL/CentOS 6.x 等 较 老 的 操作 系统 ， 其 内 核 中 未 包含 Ceph FS 模块 ， 那 么 需 通过 FUSE 方 式 挂 载 (或 者 编译 更 新 的 
内 核 ) 。 以 下 介绍 通过 内 核 和 FUSE 挂 载 Ceph FS 的 方式 。 


(1) 通过 Ceph FS 内 核 模 块 挂 载 


通过 内 核 模 块 挂 载 时 ， 如 果 使 用 Ceph 客 户 端 认 证 方式 ， 则 提供 访问 授权 信息 。 通 过 -o 提 供 账 户 admin 和 认证 密 钥 ，-t 提 供 文件 系统 类 型 : 


[root@compute-nodel ~]# mount -o name-admin, secret=AQC9xRBViMV9AhAAcgxg0TId+HgpJ4haXMuFZw== -t ceph 10.89.13.71:6789:/ /mnt/ 
[root(compute-nodel ~]# df -TH 

Filesystem Type Size Used Avail Use$ Mounted on 
/dev/vdal xfs 50G 14G 37G 27$ / 

devtmpfs devtmpfs 4.1G 0 4.1G 0$ /dev 

tmpfs tmpfs 4.2G 0 4.2G 0$ /dev/shm 

tmpfs tmpfs 4.2G 18M 4.1G 1$ /run 

tmpfs tmpfs 4.2G 0 4.2G 0$ /sys/fs/cgroup 
/dev/vdcl xfs 108G 82G 26G 77$ /data 

/dev/vddl xfs 215G 70G 146G 33$ /datal 

tmpfs tmpfs 821M 8.2k 821M 1$ /run/user/0 
10.89.13.71:6789:/ ceph 1.2T 32G 1.2T 3$ /mnt 


(2) 通过 FUSE 方 式 挂 载 


[root@compute-nodel ~]# mkdir -p /cephfs/ 
[rootécompute-nodel ~]# ceph-fuse -m 10.89.13.71:6789 /cephfs/ 
ceph-fuse[29831]: starting ceph client 
ceph-fuse[29831]: starting fuse 
[rootécompute-nodel ~]# df -Th 

Filesystem Type Size Used Avail Use% Mounted on 
/dev/vdal xfs 46G 13G 34G 27$ / 

devtmpfs devtmpfs 3.9G 0 3.9G 0$ /dev 

tmpfs tmpfs 3.9G 0 3.9G 0$ /dev/shm 

tmpfs tmpfs 3.9G 17M 3.9G 1$ /run 

tmpfs tmpfs 3.9G 0 3.9G 0$ /sys/fs/cgroup 
/dev/vdcl xfs 100G 77G 24G 77$ /data 

/dev/vddl xfs 200G 65G 136G 33$ /datal 

tmpfs tmpfs 783M 8.0K 783M 1$ /run/user/0 
ceph-fuse fuse.ceph-fuse 1.1T 29G 1.1T 3$ /mnt 


以 上 两 个 操作 分 别 让 Ceph FS 通过 内 核 模块 和 FUSE 方 式 进行 了 挂 载 。 


在 高 性 能 计算 领域 ，MPI 是 重要 的 分 布 式 计算 模型 。MPI 是 一 种 基于 消息 传递 的 并 行 编程 技术 ， 其 定义 了 一 组 具有 可 移植 性 的 编程 接口 。 通 过 MPI 编 程 模型 ， 程 序 员 能 编写 基于 消息 通信 的 应 用 程序 ， 
而 这 个 应 用 程序 能 在 不 同 的 节点 上 启动 并 协调 工作 ， 它 们 需 访问 共享 存储 ， 而 Ceph FS 正好 提供 共享 存储 的 访问 。 


各 个 厂商 或 组 织 遵 循 这 些 标准 实现 自己 的 MPI 软 件 包 ， 典 型 的 实现 包含 开放 源码 的 MPICH、OpenMPI、LAM-MPI 以 及 商业 实现 Intel MPI。 其 中 ，OpenMPI 实 现 了 MPI-1.2 和 MPI-2.0 的 通信 规范 ， 
并 支持 TCP 和 RDMA (Remote Direct Memory Access) ， 是 常用 的 MPI 实 现 库 。CentOS 7.2 默 认 带 有 OpenMPI 软 件 包 ， 安 装 过 程 如 下 。 


(1) 下 载 OpenMPI 


[root@compute-nodel ~]# cd /cephfs/ 

[root@compute-nodel ~]# mkdir source && mkdir software 

[rootécompute-nodel ~]# cd source 

[root(compute-nodel ~]# wget -c http://www.open-mpi.org/software/ompi/vil.10/downloads/openmpi-1.10.1.tar.bz2 
[rootécompute-nodel ~]# tar xf openmpi-1.10.1.tar.bz2 

[rootécompute-nodel ~]# cd openmpi-1.10.1 

[root(compute-nodel ~]# ./configure --prefix-/cephfs/software/openmpi-1.10.1 

[rootécompute-nodel ~]# make -j4 && make install 


至 此 ，OpenMPI 编 译 安装 完毕 。 
(2) 设置 OpenMPI 环 境 变量 


编辑 BASH 脚 本 /cephfs/software/openmpi-1.10.1/run.sh， 填 写 以 下 内 容 。 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 
export OMPI HOME=/cephfs/software/openmpi-1.10.1/ 

export PATH=$OMPI HOME/bin : $PATH 

export LD LIBRARY _PATH=$OMPI_HOME/lib:$LD_LIBRARY_PATH 

http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 


编写 完毕 后 ， 执 行 环境 变量 设 定 : source/cephfs/software/openmpi-1.10.1/run.sh, 


(3) 蒙特 卡 洛 法 计算 PI 值 示例 代码 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 
finclude <stdlib.h> 
finclude «time.h» 
finclude <stdio.h> 
finclude "mpi.h" 
finclude <stdio.h> 
finclude <iostream> 
using namespace std; 
long long int MC(long long int mynumber,int myrank) ( 
int mycount-0; 
double x,y; 
int i-0; 
for (i;i«mynumber; i++) { 
x-2.0* (((double)rand())/RAND MAX)-1.0; 
y-2.0* ( ( (double) rand()) /RAND MAX) -1.0; 
if (x*xty*y«1l.0) 5 
mycount++; 
} 
return mycount; 
} 
void serial() { 
int Allnumber=50000000; 
int count=0; double x,y,pi; 
double stime,etime,atime; 
stime-clock(); 
for(int i-0;i«Allnumber;i**) ( 
x-2.0* ( ( (double) rand())/RAND MAX)-1.0; 
y-2.0* ( ( (double) rand () ) /RAND MAX) -1.0; 
if (x*xty*y«l.0) 
counttt; 
) 
pi-4.0*count/Allnumber; 
etime-clock(); 
atime- (etime-stime) /1000; 
cout««"pi-"««pi««",time-"««atime««endl; 
//printf("pi- $12.12f ,alltime-$.3f ",pi,atime); 
} 
int main(int argc,char* argv[]) { 
int myrank, size; 
MPI Init (&argc, &argv); 
MPI Comm size(MPI COMM WORLD, &size); 
MPI Comm rank (MPI COMM WORLD, &myrank); 
long long int topinnumber,myinnumber,mynumber, allnumber; 
double x,y,pi,stime,etime,atime; 
stime = MPI Wtime(); 
allnumber = 50000000; 
mynumber = allnumber/size; 
if(myrank != 0) ( 
myinnumber = MC (mynumber,myrank); 
MPI Send(&myinnumber,1,MPI LONG LONG,0,0,MPI COMM WORLD); 


cout «« myrank «« " of " << size «« " : " << myinnumber «« endl; 
//printf("$d of $d : d\n", myrank, size, myinnumber); 
) else ( 
myinnumber = MC (mynumber,myrank); 
cout << myrank << " of " << size << " : " << myinnumber << endl; 


//printf("$d of $d : $dWn",myrank,size,myinnumber); 
topinnumber = myinnumber; 
for(int source = 1;source < size; source) ( 
MPI Recv(&myinnumber,1,MPI LONG LONG, source, 0,MPI COMM WORLD,MPI STATUS IGNORE); 
topinnumber += myinnumber; ME = 2i 
) 
pi = 4.0 * topinnumber / allnumber; 
} 
etime = MPI Wtime(); 
atime = etime - stime; 
if(myrank == 0) 
cout «« iz" << pi << ",time-" << atime << endl; 
//printf ("pi = %12.12d ,time = &.3d\n",pi,atime); 
MPI Finalize (); 
serial () 7 
return 0; 
} 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 


(4) 通过 OpenMPI C++ 并 行 编译 器 编译 


mpic++ m pi.cpp -o m pi 


(5) 查看 程序 动态 链接 库 (查看 其 运行 是 否 满足 环境 依赖 ) 


[root@performance mpil]# ldd m pi 


linux-vdso.so.1l => (0x00007ff492977000) 

libmpi cxx.so.1 => /cephfs/software/openmpi-1.10.1//lib/libmpi cxx.so.1 (0x00007fc1a8096000) 
libmpi.so.12 => /cephfs/software/openmpi-1.10.1//lib/libmpi.so.12 (0x00007f£cla7dba000) 
libstdc-t.so.6 => /usr/lib64/libstdct*.so.6 (0x00007fc1a7a9b000) 

libm.so.6 => /usr/lib64/libm.so.6 (0x00007f£c1a7799000) 

libgcc s.so.l => /usr/lib64/libgcc s.so.1 (0x00007fc1a7582000) 

libpthread.so.0 => /usr/lib64/libpthread.so.0 (0x00007£c1a7366000) 

libc.so.6 => /usr/lib64/libc.so.6 (0x00007fc1a6fa5000) 

libibverbs.so.1 => /usr/lib64/libibverbs.so.1 (0x00007fc1a6d92000) 

libopen-rte.so.12 => /cephfs/software/openmpi-1.10.1/1ib/libopen-rte.so.12 (0x00007fc1a6016000) 
libopen-pal.so.13 => /cephfs/software/openmpi-1.10.1/1ib/libopen-pal.so.13 (0x00007fc1a6838000) 
libnuma.so.1 => /usr/lib64/libnuma.so.1 (0x00007fc1a6625000) 

libpciaccess.so.0 => /usr/lib64/libpciaccess.so.0 (0x00007fc1a6421000) 

libdl.so.2 => /usr/lib64/libdl.so.2 (0x00007fc1a621d000) 

librt.so.1 => /usr/lib64/librt.so.1 (0x00007fc1a6014000) 

libutil.so.1 => /usr/lib64/libutil.so.1 (0x00007fc1a5e11000) 

/lib64/1ld-linux-x86-64.s0.2 (0x00007f£c1a82b1000) 

libnl-route-3.s0.200 => /usr/lib64/libnl-route-3.s0.200 (0x00007fc1a5bc1000) 

libnl-3.so0.200 => /usr/lib64/libnl-3.s0.200 (0x00007fc1a59a5000) 


(6) 通过 mpirun 执 行 PI 计算 程序 


time mpirun --allow-run-as-root -np 4 ./m pi 


上 述 mpirun 在 本 机 执行 m_pi 计 算 程序 时 ， 将 会 启动 4 个 m_pi 进 程 ， 并 且 这 4 个 进程 通过 TCP 协 议 进 行 消息 通信 。 用 户 可 通过 编写 主机 文件 (hostfile) ， 指 定 mpirun 将 多 个 并 行 任务 派送 到 不 同 的 主机 
运行 。 通 过 使 用 Ceph FS 共享 文件 系统 ，OpenMPI 和 应 用 存储 均 存 放 其 中 ， 每 个 计算 节点 立即 在 相同 路 径 启动 mpirun 执 行 计算 任务 。 


6.2 Ceph FS 作为 大 数据 后 端 存储 


Hadoop 是 一 个 对 大 量 数 据 进行 分 布 式 处 理 的 软件 框架 。Hadoop 软 件 框架 核心 包括 HDFS 和 MapReduce。 其 中 ，HDFS 全 称 为 Hadoop Distributed File System， 是 Hadoop 内 置 的 分 布 式 文件 系统 ， 
能 运行 在 通用 服务 器 集群 上 ， 构 建 大 规模 的 存储 系统 ，MapReduce， 其 概念 为 “映射 和 “ 归 约 ”， 便于 编程 人 员 编 写 程序 并 运行 在 分 布 式 系统 上 。 


Ceph FS 可 作为 Hadoop 后 端 数 据 存 储 池 ， 可 蔡 代 HDFS 的 存储 方案 。 原 因 是 Hadoop 提 供 DFS 存 储 访 问 协议 ， 对 于 通用 应 用 而 言 其 仅 能 将 数据 直接 存放 到 文件 系统 ， 而 且 存 储 过 程 可 能 涉及 内 容 修 
改 ，Ceph FS 提供 POSIX 兼 容 的 完整 分 布 式 文件 系统 ， 支 持 更 广泛 的 应 用 集中 存储 数据 。Ceph FS 作为 Hadoop 后 端 数 据 存储 原理 : Hadoop 通 过 hadoop-cephfsjar 插 件 访问 Ceph FS 存储 ， 其 插件 的 下 载 
地 址 为 : http://download.ceph.com/tarballs/hadoop-cephfs.jar. 


以 下 进行 Hadoop 与 Ceph FS 的 配置 。 实 验 环境 的 软件 版 本 如 表 6-1 所 示 。 


表 6-1 实验 环境 的 软件 版 本 


项 目 版 本 


操作 系统 CentOS 7.2 x86 64 
Ceph 0.94.5 
Hadoop 2.6.3 


根据 之 前 的 介绍 ， 读 者 需要 预先 部 署 一 个 Ceph 集 群 ， 并 配置 Ceph FS 共享 文件 服务 ; 同时 ， 参 照 Hadoop 官 网 教程 http://hadoop.apache.org/docs/stable/ 安 装 集群 管理 。Ceph FS 蔡 换 HDFS 作 为 后 
端 存储 时 ， 先 关闭 Hadoop 集 群 ， 然 后 修改 XML 配 置 文件 ， 整 体操 作 过 程 如 下 。 


1) 在 CentOS 7.2 服 务 器 上 安装 Ceph FS 的 Java 接 口 库 。 


yum install cephfs-java libcephfsl-devel python-cephfs libcephfs jnil-devel 


2) 下 载 Hadoop。 


wget -c http://mirrors.aliyun.com/apache/hadoop/common/hadoop-2.6.3/hadoop-2.6.3.tar.gz 


3) 解压 Hadoop。 


tar xf hadoop-2.6.3.tar.gz && cd hadoop-2.6.3 


4) 配置 libcephfs jn 动态 链接 库 。 


cd lib/native 
1n -s /usr/lib64/libcephfs jni.so . 
cd http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/ . . /http: / /www.hzcourse.com/resource/readBook?path-/openresources/teac 


5) 下 载 hadoop-cephfs.jar。 


wget -c http://ceph.com/download/hadoop-cephfs.jar 


6) 放置 到 系统 Java 库 路 径 。 


cp hadoop-cephfs.jar /usr/share/java/ 


7) 修改 Hadoop 的 运行 环境 配置 文件 (增加 粗 体 行 ) 。 


[root@performance hadoop-2.6.3]# vim etc/hadoop/hadoop-env.sh 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 

#export JSVC HOME-$(JSVC HOME) E 

export HADOOP CONF DIR-S(HADOOP CONF DIR:-"/etc/hadoop"]export HADOOP CLASSPATH-/usr/share/java/libcephfs.jar:/usr/share/java/hadoop-cephfs.jar:S$HADOOP CLASSPATH 
# Extra Java CLASSPATH elements. Automatically insert capacity-scheduler. 


for f in S$HADOOP HOME/contrib/capacity-scheduler/*.jar; do 


iE [ "SHADOOP CLASSPATH" ]; then 
export HADOOP CLASSPATH-SHADOOP CLASSPATH:S$f 
else 


http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 


8) 修改 Hadoop 核 心 配置 文件 。 


[root@performance hadoop-2.6.3]# vim etc/hadoop/core-site.xml 
http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 
«configuration» 
<property> 
«name»hadoop.tmp.dir«/name» 
«value»/tmp/hadoop/«/value» 
«/property» 
<property> 
<name>fs .default .name</name> 
«value»ceph://10.89.13.71/«/value» 
</property> 
<property> 
«name»ceph.conf.file«/name» <!-- 载 入 Ceph 配 置 文件 --> 
<value>/etc/ceph/ceph.conf</value> 
</property> 
<property> 
«name»ceph.auth.id«/name» <!-- 设 定 Ceph 集 群 访问 认 证 用 户 --> 
<value>admin</value> 
«/property» 
«property» 
«name»ceph.auth.keyringc/name» <!-- 设 定 Ceph 集 群 admin 用 户 认 证 密 钥 --> 
<value>/etc/ceph/ceph.client .admin.keyring</value> 
</property> 
<property> 
«name»ceph.data.pools«/name» <!-- 设 定 Ceph 集 群 默认 存储 池 ，hadoopP1--> 
<value>hadoop1</value> 
</property> 
<property> 
«name»fs.ceph.impl«/name» <!-- 设 定 Ceph 集 群 访问 文件 接口 --> 
<value>org.apache.hadoop.fs.ceph.CephFileSystem</value> 
</property> 
</configuration> 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 


9) 创建 Ceph FS 存储 池 ， 供 Hadoop 使 用 。 


[root@performance hadoop-2.6.3]# ceph osd pool create hadoopl 128 
pool 'hadoopl' created 

[root(performance hadoop-2.6.3]# ceph osd pool set hadoopl size 3 
set pool 26 size to 3 

[root(performance hadoop-2.6.3]# ceph osd pool set hadoopl min size 2 
set pool 26 min size to 2 T 
[root@performance hadoop-2.6.3]# ceph mds add data pool hadoopl 
added data pool 26 to mdsmap 


上 述 配 置 完成 后 ， 即 可 启动 Hadoop 集 群 。 通 过 Hadoop 的 dfs 命 令 ,访问 Ceph FS 集群 文件 。 通 过 Hadoop 集 群 命令 ,可 检验 访问 Ceph FS 存储 能 力 。 


10) 通过 Hadoop 命 令 列 出 当前 Ceph FS 存储 文件 的 目录 内 容 。 


[root@performance hadoop-2.6.3]# bin/hadoop dfs -ls / 

DEPRECATED: Use of this script to execute hdfs command is deprecated. 
Instead use the hdfs command for it. 

Found 0 items 


11) 通过 Hadoop 命 令 将 文件 导入 Ceph FS 存储 的 文件 目录 ，。 


[root@performance hadoop-2.6.3]# ./bin/hadoop dfs -put ~/ceph/ceph-0.94.5.tar.bz2 /ceph-0.94.5.tar.bz2 
DEPRECATED: Use of this script to execute hdfs command is deprecated. 
Instead use the hdfs command for it. 


再 次 查看 Ceph FS 存储 的 文件 目录 ， 发 现 文件 已 经 导入 。 


[root@performance hadoop-2.6.3]# ./bin/hadoop dfs -ls / 

DEPRECATED: Use of this script to execute hdfs command is deprecated. 
Instead use the hdfs command for it. 

Found 1 items 

-rw-r--r-- 3 root 7084809 2016-01-03 16:24 /ceph-0.94.5.tar.bz2 


在 上 述 过 程 中 ，Ceph FS 成 功 作为 Hadoop 的 后 端 存储 使 用 ， 可 以 通过 DFS 命 令 对 文件 进行 上 传 和 下 载 等 操作 。 开 发 者 将 需要 运算 的 数据 上 传 到 Ceph FS 后 ,执行 Hadoop 计 算 任务 ， 其 运算 过 程 与 
HDFS 后 端 一 致 。 


63 本章 小 结 


本 章 介绍 Ceph FS 两 个 重要 的 应 用 场景 : 高 性 能 计算 和 大 数据 处 理 。 传 统 高 性 能 计算 采用 通用 服务 器 搭建 Lustre 并 加 载 DAS 存 储 方式 ， 数 据 元 余 通 过 DAS 阵 列 解决 。Ceph FS 基于 RADOS， 可 直接 在 通 
服务 器 上 提供 副本 数据 元 余 ， 是 高 性 能 计算 数据 存储 的 可 选 方案 。Ceph FS 提供 Java 接 口 ， 能 让 使 用 Java 编 写 的 应 用 程序 访问 数据 池 ， 而 Hadoop 等 一 批 基 于 Java 编 写 的 大 数据 计算 框架 ， 可 以 快速 并 发 
访问 Ceph FS 存储 空间 ， 提 高 数据 吞吐 能 


第 7 章 ” 块 存储 一 一 虚拟 化 与 数据 库 


7.1 Ceph 与 KVM 


本 节 只 描述 Ceph 与 KVM 虚 拟 化 的 结合 结果 ， 让 Ceph 块 存储 RBD 作 为 KVM 虚 拟 化 的 后 端 存储 。 先 简单 介绍 KVM 虚 拟 化 背景 知识 。 


KVM 虚 拟 化 技术 是 当前 流行 的 虚拟 化 技术 之 一 。KVM 虚 拟 化 技术 本 质 是 利用 CPU 硬件 虚拟 化 技术 在 Linux 等 操作 系统 内 核 上 添加 代理 模块 ， 让 运行 在 QEMU 模 拟 器 的 客户 机 二 进 制 指令 通过 KVM 模 块 传 
递 给 CPU 硬件 虚拟 化 ， 并 返回 运行 指令 。 相 比 纯 QEMU 模 拟 器 ，KVM 模 块 能 让 客户 机 不 需要 进行 二 进 制 翻译 过 程 ， 而 直接 使 用 CPU 硬件 虚拟 化 特性 ， 大 大 提高 了 QEMU 的 运行 速度 。 


首先 要 检查 当前 操作 系统 自 带 的 qemu-kvm (Fedora/RHEL/CentOS/) 或 者 qemu-system-x86_64 (Debian/Ubuntu) 是 否 支 持 RBD 作 为 虚拟 磁盘 后 端 存储 。 如 果 不 做 特别 说 明 ， 以 下 提 及 的 
CentOS 7.1 和 Ubuntu 14.04 均 指 64 位 系统 。 


在 之 前 的 章节 ， 我 们 已 经 构建 了 基本 的 Ceph 环 境 ， 现 在 读者 们 先 通 过 模板 CentOS 7.1 克 隆 一 台 虚 拟 机 ， 用 来 运行 KVM 虚 拟 化 。 


目前 CentOS 7.1 和 Ubuntu 14.04 的 QEMU 虚 拟 机 程序 已 经 实现 以 LIBRBD 的 方式 访问 RBD 块 存储 。 通 过 以 下 操作 确认 当前 操作 系统 自 带 的 QEMU 是 否 支 持 RBD 块 存储 。 


(1) 检测 操作 系统 的 KVM 虚拟 化 是 否 支持 RBD 块 存储 


1) 在 CentOS 7.1 安 装 KVM 虚 拟 化 以 及 相关 管理 工具 。 


[root@kvm-nogdel ~]# yum install qemu-kvm qemu-img libvirt 


2) 检查 qemu-kvm 是 否 支持 RBD 块 存储 。 


[root@kvm-nodel ~]# gemu-img --help | grep rbd 
Supported formats: vvfat vpc vmdk vhdx vdi sheepdog rbd raw host cdrom host floppy host device file qed qcow2 qcow parallels nbd iscsi gluster dmg cloop bochs blkverify blkdebt 


3) 在 Ubuntu 14.04 上 安装 KVM 虚 拟 化 以 及 相关 管理 工 


ubuntu&ubuntu:^$ sudo apt-get install qemu-system-x86 qemu-kvm qemu-utils libvirt-bin 


4) 在 Ubuntu 14.04 上 查看 qemu-img 是 否 支 持 RBD 块 设备 。 


root@ubuntu:~# qemu-img --help | grep rbd 
Supported formats: vvfat vpc vmdk vhdx vdi sheepdog sheepdog sheepdog rbd raw host cdrom host floppy host device file qed qcow2 qcow parallels nbd nbd nbd dmg tftp ftps ftp htt 


如 果 出 现 rbd 关 键 词 ， 则 说 明 当前 qemu-kvm 或 者 qemu-system-x86_64 支 持 RBD 块 存储 。 


(2) 使 用 块 存储 


接 下 来 介绍 如 何 让 KVM 虚拟 化 访问 Ceph RBD 的 虚拟 磁盘 文件 。 


1) 在 kvm-node1 安 装 Ceph 软 件 。 


[root@kvm-nodel ~]# yum install qemu-kvm qemu-img 


Q@ 把 /etc/ceph/ceph.conf 复 制 到 kvm-node1 节 点 相同 的 路 径 位 置 。 


@ 把 /etc/ceph/ceph.client.admin.keyring 复 制 到 kvm-node1 节 点 相同 的 路 径 位 置 。 


2) 此 时 kvm-node1 的 qemu-img 工 具 使 用 /etc/ceph/ceph.conf 作 为 默认 配置 文件 ， 关 于 RBD 块 存储 的 转换 操作 将 直接 使 用 配置 文件 定义 的 参数 。 


3) 为 了 让 KVM 虚 拟 化 创建 虚拟 机 并 引导 操作 系统 ， 可 将 已 经 安装 操作 系统 的 QCOW2 镜 像 导 入 到 RBD 存 储 池 vmpool1。 下 面 创建 RBD 存 储 池 vmpool1， 并 导入 系统 镜像 。 


[root(ceph-monl ~]# wget -c http://download.zstack.org/templates/zstack-image-1.2.qcow2 
[root(ceph-monl ~]# ceph osd pool create vmpooll 128 
[root(ceph-monl ~]# qemu-img convert -f qcow2 -O raw zstack-image-1.2.qcow2 rbd:vmpooll/root-imagel 


其 中 ， 上 面 运行 qemu-img 镜 像 导 入 命令 时 ， 将 qcow2 转 化 成 raw 格 式 。 这 是 由 于 KVM 虚 拟 化 访问 Ceph RBD 存 储 时 将 会 配置 raw 的 访问 格式 ， 故 在 此 步骤 中 转换 成 raw 格 式 。 


4) 如 果 安 装 Ceph 时 开启 了 cephx 认 证 ， 则 需要 创建 客户 端 访 问 权限 。 


[root(ceph-monl ~]# ceph auth get-or-create client.vmpooll mon 'allow r' osd 'allow rwx pool-vmpooll' 
[client.vmpooll] 
key = AQCaG/FUeHL/MxAAsRr9ike00H407rQ/NJkhhQ-- 


5) 利用 上 面 的 密 钥 信 息 ， 创 建 XML 配 置 文件 。 


[root@ceph-monl ~]# cat secret-vmpooll.xml 
<secret ephemeral='no' private-'no'» 
«usage type-'ceph'» 
«name»client-vmpooll-secret«/name» 
«/usage» 
</secret> 


6) 将 上 述 的 XML 配置 导入 到 Libvirt。 


[root@ceph-monl ~]# virsh secret-define --file secret-pool4test.xml 
Secret e96b4fb6-832a-48d40-9286-a13f91548dfl created 


7) 将 上 述 生 成 的 UUID 密 码 容 器 ， 设 置 给 密 钥 。 


virsh secret-set-value e96b4fb6-832a-4d40-9286-a13f91548df1 --base64 AQCaG/FUeHL/MxAAsRr9ike00H407rQ/NJkhhQ-- 


8) 以 下 是 KVM 虚 拟 机 描述 文件 (XML). 的 RBD 块 设备 片段 。 


«disk type-'network' device-'disk'» 
Xdriver name-'qgemu' type-'raw'/» 
«auth username-'vmpooll'» 
Xsecret type-'ceph' uuid-'e96b4fb6-832a-4d40-9286-a13f91548df1'/» 
«/auth» 
<source protocol-'rbd' name-'vmpooll/root-imagel'» 


Xhost name-'ceph-monl' port-'6789'/» 

</source> 

<target dev='vdb' bus='virtio'/> 
</disk> 


其 中 ，“ceph-mon1” 是 主机 自 定义 域名 解析 ， 填 写 Ceph MON 服 务 的 IP 地 址 。 


以 下 提供 了 KVM 虚 拟 机 主机 访问 Ceph RBD 块 存储 的 完整 XML 配置 文件 。 


«domain type-'kvm'» 
«name»netapp-manager«/name» 
«memory unit-'GiB'»4«/memory» 
XcurrentMemory unit-'GiB'»4«/currentMemory» 
Xvcpu placement-'static'»4«/vcpu» 
Xcpu mode-'host-model'» 
«topology sockets-'2' cores='2' threads-'1'/» 
«/cpu» 
«os» 
«type arch-'x86 64'2hvm«/type» 
Xboot dev-'hd'/» 
«boot dev-'cdrom'/» 
«/os» 
«features» 
«acpi/» 
«apic/» 
«pae/» 
«/features» 
«clock offset-'localtime'/» 
«on poweroff»destroy«/on poweroff» 
«on reboot»restart«/on reboot» 
Xon crash»destroy«/on crash» 
«devices» ul 
«emulator»/usr/libexec/qemu-kvm«/emulator» 
«disk type-'network' device-'disk'» 
«driver name-'qemu' type-'raw'/» 
«auth username-'vmpooll'» 
Xsecret type-'ceph' uuid-'e96b4fb6-832a-4d40-9286-a13f91548df1'/» 
«/auth» 
<source protocol-'rbd' name-'vmpooll/root-imagel'» 
«host name-'ceph-monl' port-'6789'/» 
</source> 
<target dev='vdb' bus-'virtio'/» 
</disk> 
<disk type='file' device='cdrom'> 
<driver name='qemu' type='raw' cache='none'/> 
<target dev-'hdc' bus-'ide'/» 
«readonly/» 
«/disk» 
Xinterface type-'bridge'» 
<source bridge-'cloudbr0'/» 
«model type-'virtio'/» 


«/interface» 
<input type-'tablet' bus-'usb'» 
«/input» 
<input type-'mouse' bus-'ps2'/» 
Xgraphics type-'vnc' passwd-'cloudl23' port-'-1' autoport-'yes' listen- '0.0.0.0' keymap-'en-us'» 
«/graphics» 
*«memballoon model-'none'» 
«/memballoon» 
</devices> 
<seclabel type='none'/> 
</domain> 
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7.1 Ceph 与 KVM 


本 节 只 描述 Ceph 与 KVM 虚 拟 化 的 结合 结果 ， 让 Ceph 块 存储 RBD 作 为 KVM 虚 拟 化 的 后 端 存储 。 先 简单 介绍 KVM 虚 拟 化 背景 知识 。 


KVM 虚 拟 化 技术 是 当前 流行 的 虚拟 化 技术 之 一 。KVM 虚 拟 化 技术 本 质 是 利用 CPU 硬件 虚拟 化 技术 在 Linux 等 操作 系统 内 核 上 添加 代理 模块 ， 让 运行 在 QEMU 模 拟 器 的 客户 机 二 进 制 指令 通过 KVM 模 块 传 
递 给 CPU 硬件 虚拟 化 ， 并 返回 运行 指令 。 相 比 纯 QEMU 模 拟 器 ，KVM 模 块 能 让 客户 机 不 需要 进行 二 进 制 翻译 过 程 ， 而 直接 使 用 CPU 硬件 虚拟 化 特性 ， 大 大 提高 了 QEMU 的 运行 速度 。 


首先 要 检查 当前 操作 系统 自 带 的 qemu-kvm (Fedora/RHEL/CentOS/) 或 者 qemu-system-x86 64 (Debian/Ubuntu) 是 否 支 持 RBD 作 为 虚拟 磁盘 后 端 存储 。 如 果 不 做 特别 说 明 ， 以 下 提 及 的 
CentOS 7.1 和 Ubuntu 14.04 均 指 64 位 系统 。 


在 之 前 的 章节 ， 我 们 已 经 构建 了 基本 的 Ceph 环 境 ， 现 在 读者 们 先 通过 模板 CentOS 7.1 克 隆 一 台 虚拟 机 ， 用 来 运行 KVM 虚 拟 化 。 


目前 CentOS 7.1 和 Ubuntu 14.04 的 QEMU 虚 拟 机 程序 已 经 实现 以 LIBRBD 的 方式 访问 RBD 块 存储 。 通 过 以 下 操作 确认 当前 操作 系统 自 带 的 QEMU 是 否 支 持 RBD 块 存储 。 


(1) 检测 操作 系统 的 KVM 虚拟 化 是 否 支持 RBD 块 存储 


1) 在 CentOS 7.1 安 装 KVM 虚 拟 化 以 及 相关 管理 工具 。 


[root@kvm-nodel ~]# yum install qemu-kvm qemu-img libvirt 


2) 检查 qemu-kvm 是 否 支持 RBD 块 存储 。 


[root@kvm-nodel ~]# gemu-img --help | grep rbd 
Supported formats: vvfat vpc vmdk vhdx vdi sheepdog rbd raw host cdrom host floppy host device file qed qcow2 qcow parallels nbd iscsi gluster dmg cloop bochs blkverify blkdebt 


3) 在 Ubuntu 14.04 上 安装 KVM 虚 拟 化 以 及 相关 管理 工具 。 


ubuntulubuntu:~$ sudo apt-get install qemu-system-x86 qemu-kvm qemu-utils libvirt-bin 


4) 在 Ubuntu 14.04 上 查看 qemu-img 是 否 支持 RBD 块 设备 。 


root@ubuntu:~# qemu-img --help | grep rbd 
Supported formats: vvfat vpc vmdk vhdx vdi sheepdog sheepdog sheepdog rbd raw host cdrom host floppy host device file qed qcow2 qcow parallels nbd nbd nbd dmg tftp ftps ftp htt 


如 果 出 现 rbd 关 键 词 ， 则 说 明 当 前 qemu-kvm 或 者 qemu-system-x86_ 64 支持 RBD 块 存储 。 


(2) 使 用 块 存储 


接 下 来 介绍 如 何 让 KVM 虚 拟 化 访问 Ceph RBD 的 虚拟 磁盘 文件 。 


1) 在 kvm-node1 安 装 Ceph 软 件 。 


[root@kvm-nodel ~]# yum install qemu-kvm qemu-img 


Q@ 把 /etc/ceph/ceph.conf 复 制 到 kvm-node1 节 点 相同 的 路 径 位 置 。 


@ 把 /etc/ceph/ceph.client.admin.keyring 复 制 到 kvm-node1 节 点 相同 的 路 径 位 置 。 


2) 此 时 kvm-node1 的 qemu-img 工 具 使 用 /etc/ceph/ceph.conf 作 为 默认 配置 文件 ， 关 于 RBD 块 存储 的 转换 操作 将 直接 使 用 配置 文件 定义 的 参数 。 


3) 为 了 让 KVM 虚 拟 化 创建 虚拟 机 并 引导 操作 系统 ， 可 将 已 经 安装 操作 系统 的 QCOW2 镜 像 导 入 到 RBD 存 储 池 vmpool1。 下 面 创建 RBD 存 储 池 vmpool1， 并 导入 系统 镜像 。 


[root@ceph-mon1 ~]# wget -c http://download.zstack.org/templates/zstack-image-1.2.qcow2 
[root(ceph-monl ~]# ceph osd pool create vmpooll 128 
[root(ceph-monl ~]# qemu-img convert -f qcow2 -O raw zstack-image-1.2.qcow2 rbd:vmpooll/root-imagel 


其 中 ， 上 面 运行 qemu-img 镜 像 导 入 命令 时 ， 将 qcow2 转 化 成 raw 格 式 。 这 是 由 于 KVM 虚 拟 化 访问 Ceph RBD 存 储 时 将 会 配置 raw 的 访问 格式 ， 故 在 此 步骤 中 转换 成 raw 格 式 。 


4) 如 果 安 装 Ceph 时 开启 了 cephx 认 证 ， 则 需要 创建 客户 端 访问 权限 。 


[root(ceph-monl ~]# ceph auth get-or-create client.vmpooll mon 'allow r' osd 'allow rwx pool-vmpooll' 
[client.vmpooll] 
key = AQCaG/FUeHL/MxAAsRr9ike00H407rQ/NJkhhQ-- 


5) 利用 上 面 的 密 钥 信息 ， 创 建 XML 配置 文件 。 


[root@ceph-monl ~]# cat secret-vmpooll.xml 
<secret ephemeral-'no' private-'no'» 
«usage type-'ceph'» 
«name»client-vmpooll-secret«/name» 
«/usage» 
«/secret» 


6) 将 上 述 的 XML 配置 导入 到 Libvirt。 


[root@ceph-monl ~]# virsh secret-define --file secret-pool4test.xml 
Secret e96b4fb6-832a-48d40-9286-a13f91548dfl created 


7) 将 上 述 生 成 的 UUID 密 码 容 器 ， 设 置 给 密 钥 。 


virsh secret-set-value e96b4fb6-832a-4d40-9286-a13f91548df1l --base64 AQCaG/FUeHL/MxAAsRr9ike00H407rQ/NJkhhQ== 


8) 以 下 是 KVM 虚 拟 机 描述 文件 (XML). 的 RBD 块 设备 片段 。 


«disk type-'network' device-'disk'» 
Xdriver name-'gemu' type-'raw'/» 
«auth username-'vmpooll'» 
Xsecret type-'ceph' uuid-'e96b4fb6-832a-4d40-9286-a13f91548df1'/» 
«/auth» 
<source protocol-'rbd' name-'vmpooll/root-imagel'» 
Xhost name-'ceph-monl' port-'6789'/» 
</source> 
<target dev='vdb' bus='virtio'/> 
</disk> 


其 中 ，“ceph-mon1” 是 主机 自 定义 域名 解析 ， 填 写 Ceph MON 服 务 的 IP 地 址 。 


以 下 提供 了 KVM 虚 拟 机 主机 访问 Ceph RBD 块 存储 的 完整 XML 配置 文件 。 


«domain type-'kvm'» 
«name»netapp-manager«/name» 
«memory unit-'GiB'»4«/memory» 
X«currentMemory unit-'GiB'»4«/currentMemory» 
«vcpu placement-'static'»4«/vcpu» 
«cpu mode-'host-model'» 
«topology sockets-'2' cores-'2' threads-'1'/» 
«/cpu» 
«os» 
«type arch-'x86 64'»hvm«/type» 
Xboot dev-'hd'/» 
Xboot dev-'cdrom'/» 
«/os» 
«features» 
«acpi/» 
«apic/» 
<pae/> 
</features> 
«clock offset-'localtime'/» 
Xon poweroff»destroy«/on poweroff» 
Xon reboot?restart«/on reboot» 
«on crash»destroy«/on crash» 
«devices» = 
<emulator>/usr/libexec/qemu-kvm</emulator> 
<disk type='network' device='disk'> 
<driver name='qemu' type='raw'/> 
«auth username-'vmpooll'» 
Xsecret type-'ceph' uuid-'e96b4fb6-832a-4d40-9286-a13f91548df1'/» 
«/auth» 
<source protocol-'rbd' name-'vmpooll/root-imagel'» 
«host name-'ceph-monl' port-'6789'/» 
</source> 
<target dev='vdb' bus='virtio'/> 
</disk> 
<disk type='file' device='cdrom'> 
<driver name='qemu' type='raw' cache='none'/> 
«target dev='hdc' bus-'ide'/» 


«readonly/» 

«/disk» 

Xinterface type-'bridge'» 
<source bridge-'cloudbr0'/» 
«model type-'virtio'/» 

«/interface» 

<input type-'tablet' bus-'usb'» 

«/input» 

<input type-'mouse' bus-'ps2'/» 

«graphics type-'vnc' passwd-'cloudl23' port-'-1' autoport-'yes' listen- '0.0.0.0' keymap-'en-us'» 

«/graphics» 

«memballoon model-'none'» 
«/memballoon» 

</devices> 

<seclabel type='none'/> 

</domain> 


7.2 Ceph 与 OpenStack 


本 节 只 描述 Ceph 与 Openstack 的 结合 ， 让 Ceph 块 存储 RBD 作 为 Openstack 的 后 端 存储 。 


先 来 介绍 一 下 Openstack 背 景 知识 。 


Openstack 是 一 个 由 NASA (美国 国家 航空 航天 局 ) 和 Rackspace 合 作 研 发 并 发 起 的 开源 云 计算 管理 平台 项 目 ， 由 几 个 主要 的 组 件 组 合 起 来 完成 具体 工作 。OpenStack 支 持 几乎 所 有 类 型 的 云 环境 ,项 


目 目 标 是 提供 实施 简单 、 可 大 规模 扩展 、 组 件 丰 富 、 标 准 统一 的 云 计算 管理 平台 。OpenStack 通 过 各 种 互补 的 服务 提供 了 “基础 设施 ” 即 服 务 (laaS) 的 解决 方案 ,每 个 服务 提供 API 以 进行 集成 。 


OpenStack 主 要 有 以 下 3 个 组 件 可 以 和 Ceph 对 接 。 
Glance: OpenStack 的 镜像 管理 组 件 ， 和 Ceph 对 接 之 后 镜像 将 存储 在 Ceph 集 群 里 面 。 
“ Cinder: OpenStack 的 云 硬盘 组 件 ， 和 Ceph 对 接 之 后 云 硬盘 将 存储 在 Ceph 集 群 里 面 。 
- Nova: Openstack 的 核心 组 件 ， 和 Ceph 对 接 之 后 云 主机 的 系统 卷 将 会 存储 在 Ceph 集 群 里 面 。 
以 上 3 个 组 件 和 Ceph 对 接 之 后 将 会 实现 秒 级 创建 。 
温馨 提示 : 
上 传 的 镜像 必须 是 RAW 格式 的 才能 支持 COW。 


下 面 说 一 下 OpenStack 如 何 与 Ceph 对 接 。 


1) 创建 几 个 对 应 的 


ceph osd pool create volumes 128 
ceph osd pool create images 128 
ceph osd pool create backups 128 
ceph osd pool create vms 128 


2) 在 Glance 节 点 安装 python-rbd。 


sudo apt-get install python-rbd #for Ubuntusudo yum install python-rbd #for CentOS or RedHat 


3) 在 Cinder-volume 节 点 和 Nova-compute 节 点 安装 ceph-common。 


sudo apt-get install ceph-common #for Ubuntusudo yum install ceph #for CentOS or RedHat 


4) 把 Ceph 配 置 文件 复制 到 Glance 节 点 、Cinder-volume 节 点 和 Nova-compute 节 点 。 


ssh (your-openstack-server-node) sudo tee /etc/ceph/ceph.conf «/etc/ceph/ceph.conf 


5) 创建 CephX 认 证 授权 用 户 。 


ceph auth get-or-create client.cinder mon 'allow r' osd 'allow class-read object prefix rbd children, allow rwx pool-volumes, allow rwx pool-vms, allow rx pool-images' 


ceph auth get-or-create client.glance mon 'allow r' osd 'allow class-read object prefix rbd children, allow rwx pool-images' 


ceph auth get-or-create client.cinder-backup mon 'allow r' osd 'allow class-read object prefix rbd children, allow rwx pool-backups' 


6) 把 密 钥 复制 到 Glance 节 点 、Cinder-volume 节 点 、Nova-compute 节 点 以 及 Cinder-Backup 节 点 并 且 授 权 。 


ceph auth get-or-create client.glance | ssh (your-glance-api-server] sudo tee /etc/ceph/ceph.client.glance.keyring 

ssh [your-glance-api-server) sudo chown glance:glance /etc/ceph/ceph.client.glance.keyring 

ceph auth get-or-create client.cinder | ssh (your-volume-server] sudo tee /etc/ceph/ceph.client.cinder.keyring 

ssh [your-cinder-volume-server) sudo chown cinder:cinder /etc/ceph/ceph.client.cinder.keyring 

ceph auth get-or-create client.cinder-backup | ssh (your-cinder-backup-server) sudo tee /etc/ceph/ceph.client.cinder-backup.keyring 
ssh (your-cinder-backup-server) sudo chown cinder:cinder /etc/ceph/ceph.client.cinder-backup.keyring 

ceph auth get-or-create client.cinder | ssh (your-nova-compute-server] sudo tee /etc/ceph/ceph.client.cinder.keyring 

ceph auth get-key client.cinder | ssh (your-compute-node] tee client.cinder.key 


7) 配置 Glance 节 点 ， 在 glance-api 配 置 文件 中 修改 以 下 内 容 。 


[DEFAULT] http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 
default store = rbd a 

show image direct url - True 

[glance store] 

stores = rbd 

rbd store pool = images 

rbd store user - glance 

ceph conf - /etc/ceph/ceph.conf 

rbd store chunk size - 8 


8) 配置 cinder-volume 节 点 ， 添 加 以 下 内 容 。 


volume driver - cinder.volume.drivers.rbd.RBDDriver 

rbd pool = volumes 

rbd ceph conf = /etc/ceph/ceph.conf 

rbd flatten volume from snapshot = false 

rbd max clone depth - 5 

rbd store chunk size = 4 

rados connect timeout = -1 

glance api version - 2 

rbd user = cinder 

rbd secret uuid = 457eb676-33da-42ec-9a8c-9293d545c337 # 这 里 的 UUID 需 要 由 uuidgen 命 令 生成 


9) 配置 Cinder Backup 节 点 ， 添 加 以 下 内 容 。 


backup driver = cinder.backup.drivers.ceph 

backup ceph conf = /etc/ceph/ceph.conf 

backup ceph user = cinder-backup 

backup ceph chunk size = 134217728 

backup ceph pool = backups 

backup ceph stripe unit = 0 

backup ceph stripe count = 0 

restore discard excess bytes = true 

rbd user = cinder 

rbd secret uuid = 457eb676-33da-42ec-9a8c-9293d545c337 # 这 里 的 UUID 需 要 由 uuidgen 命 令 生成 


T 


10) 配置 nova-compute 节 点 ， 创 建 secret.xml 并 且 注 入 到 Libvirt 里 面 。 


cat > secret.xml ««EOF 

«secret ephemeral-'no' private-'no'» «uuid»457eb676-33da-42ec-9a8c-9293d545c337«/uuid» «usage type-'ceph'» «name»client.cinder secret«/name» «/usage»«/secret» 
EOF 

sudo virsh secret-define --file secret.xml 

sudo virsh secret-set-value --secret 457eb676-33da-42ec-9a88c-9293d545c337 --base64 $(cat client.cinder.key) && rm client.cinder.key secret.xml 


11) 编辑 nova.conf 文 件 ， 添 加 以 下 内 容 。 


[libvirt] 

images type= rbd 

images rbd pool= volumes 

images rbd ceph conf- /etc/ceph/ceph.conf 

rbd user- cinder 

rbd secret uuid- 457eb676-33da-42ec-9a8c-9293d545c337 

disk cachemodes-"network-writeback" 

libvirt live migration flag-"VIR MIGRATE UNDEFINE SOURCE,VIR MIGRATE PEERZPEER,VIR MIGRATE LIVE,VIR MIGRATE PERSIST DEST" 


12) 重启 glance-api、cinder-volume、cinder-backup 和 nova-compute 服 务 。 


sudo service glance-api restart #for Ubuntu 

sudo service nova-compute restart #for Ubuntu 

sudo service cinder-volume restart #for Ubuntu 

sudo service cinder-backup restart #for Ubuntu 

sudo service openstack-glance-api restart #for CentOS or Red Hat 
sudo service openstack-nova-compute restart #for CentOS or Red Hat 
sudo service openstack-cinder-volume restart #for CentOS or Red Hat 
sudo service openstack-cinder-backup restart #for CentOS or Red Hat 


13) 验证 COW 云 主机 秒 级 创建 。 


前 提 条 件 ， 必 须 上 传 一 个 RAW 格式 的 镜像 文件 ， 因 为 只 有 RAW 格式 的 镜像 才 支 持 COW (Copy On Write) 秒 级 创建 。 


“ 在 OpenStack 的 Horizon 界 面 开 一 个 云 主机 。 
* 选择 boot from volume (从 镜像 启动 创建 一 个 新 卷 ) 。 


“ 在 Ceph 节 点 上 运行 rbd-p volumes ls-1， 出 现 与 以 下 内 容 证 明成 功 。 


volume-f75d744d-8b19-4f1f-a7b1-62774358244f 20480M images/db500efe-3ae6-47c9-90e5-d57d4e62e2918snap 


7.3 Ceph5CloudStack 


CloudStack, 项目 地址 http://cloudstack.apache.org/， 提 供 一 个 开源 的 “基础 设施 即 服务 ” (laaS) 的 解决 方案 ,特点 是 高 可 用 和 高 扩展 的 能 力 。CloudStack 前 身 是 Cloud.com，2011 年 7 月 被 
Citrix 思 杰 收 购并 100% 开 源 。2012 年 4 月 ，Citrix 思 杰 宣 布 把 CloudStack 交 给 Apache 软 件 基金 会 管理 以 及 开发 。 目 前 CloudStack 采 用 Apache License v 2.0 开 源 许可 证 发 布 源码 ， 源 码 托 
管 : https://github.com/apache/cloudstack/。 


目前 CloudStack 最 新 版 本 为 4.6.0， 支 持 庶 拟 化 包含 XenServer、KVM、LXC、VMware、HyperV 和 OVM3， 同 时 支持 物理 服务 器 (Baremetal) 。 其 中 ，KVM 虚 拟 化 ， 支 持 
RHEL/CentOS (6.x/7.x) 、Debian (7.x/8.x) /Ubuntu (12.04,14.04) 和 Fedora (20/21/22/23) 等 发 行 版 本 。CloudStack+KVM 虚 拟 化 的 场景 ， 主 存储 支持 NFS、CLVM、RBD、 共 享 存储 和 本 地 存 
储 。 


接 下 来 描述 CloudStack+KVM+RBD 的 场景 部 署 。 


目前 ，CloudStack+KVM 的 RBD 块 存储 代码 由 CloudStack 社 区 贡献 者 Wido den Hollander (https://github.com/wido/) 维护 。Wido 设 计 KVM+RBD 方 案 时 ， 是 通过 Libvirt 管 理 RBD Pool。 而 在 
Debian/Ubuntu，Libvirt 默 认 编译 开启 --with-storage-rbd 选 项 ， 所 以 使 用 其 操作 系统 部 署 CloudStack+KVM 方 案 时 较为 顺利 。 


而 RHEL/CentOS 的 6.x 和 7.x 的 Libvirt 默 认 编译 设置 了 --without-storage-rbd 选 项 ， 所 以 RHEL/CentOS KVM 节 点 可 以 直接 使 用 RBD。 以 下 以 CentOS 7.1 为 例 ， 重 新 编译 Libvirt， 使 用 Debian/Ubuntu 
KVM 节 点 的 场景 可 以 忽略 。 当 前 CentOS 7.1 的 Libvirt 版 本 为 libvirt-1.2.8-16.el7_1.5.src.rpm。 


1) 安装 编译 版 。 
源码 下 载 链 接 ( 若 有 更 新 ， 请 读者 自行 下 载 最 新 版 本 ) : http://vault.centos.org/centos/7/updates/Source/SPackages/libvirt-1.2.8-16.el7_1.5.src.rpm。 


2) 安装 编译 依赖 包 。 


yum groupinstall "Development Tools" 


yum -y install scrub dbus-devel systemtap-sdt-devel numactl-devel glusterfs-devel glusterfs-api-devel device-mapper-devel parted-devel avahi-devel python-devel libxml2-devel xk 


若 未 安装 以 上 的 软件 包 ， 编 译 Libvirt 时 也 会 提示 依赖 。 


3) 执行 编译 。 


rpm build --rebuild libvirt-1.2.8-16.e17 1.5.src.rpm 


当 执 行 上 述 编译 时 ， 监 测 屏 幕 源码 包 解压 结束 ， 按 Ctrl+C 终 止 编译 。 


[rootüserverl libvirt]# 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 
* cd libvirt-1.2.8 

/usr/bin/chmod -Rf atrX,u*w,g-w,O-W . 

PATCHCOUNT-355 

PATCHLIST-/tmp/lua NaOiu0 

git init -q 

git config user.name rpm-build 

git config user.email rpm-build 

git config gc.auto 0 

git add . 

^Cerror: Error executing scriptlet /var/tmp/rpm-tmp.DqWwdO ($prep) 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 


十 十 十 十 十 十 十 十 


4) 修改 文件 /root/rpmbuild/SPECS/ceph.spec， 修 改 关 于 rbd pool 的 支持 选项 


[rootéserverl ~]# vim /root/rpmbuild/SPECS/ceph. spec 

http://www.hzcourse. com/resource/readBook?path=/openresources/teach « ebook/uncompressed/15953/OEBPS/Text/... 
112 $define with storage iscsi 0%{!? without storage iscsi:$([server : " drivers]] 

113 $define with : | Storage í “disk 02(!? without . Storage í disk: $(server í drivers]] 

114 $define with : | storage ' mpath 0$(!? without . Storage mpath: $[server « Grivers}} 

115 %if 0%{?fedora} >= 16 || 0%{?rhel} >= 7 

116 $define with storage rbd 0$(!? without storage rbd:$(server drivers]] 

117 $else 

118 $define with storage rbd 0 

119 $endif 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 


5) 执行 编译 。 


[root(serverl SPECS]# rpmbuild --bb libvirt.spec 


6) 查看 编译 的 rpm 包 。 


[rootéserverl SPECS]# ls /root/rpmbuild/RPMS/x86 64/*1.2.8* 

/root/rpmbuild/RPMS/x86 64/libvirt-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpnbuild/RPMS/x86 64/libvirt-client-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-daemon-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-daemon-config-network-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-daemon-config-nwfilter-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpnbuild/RPMS/x86 64/libvirt-daemon-driver-interface-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-daemon-driver-lxc-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-daemon-driver-network-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpnbuild/RPMS/x86 64/libvirt-daemon-driver-nodedev-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-daemon-driver-nwfilter-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-daemon-driver-qemu-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-daemon-driver-secret-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpnbuild/RPMS/x86 64/libvirt-daemon-driver-storage-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-daemon-kvm-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-daemon-lxc-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpnbuild/RPMS/x86 64/libvirt-debuginfo-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-devel-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-docs-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpmbuild/RPMS/x86 64/libvirt-lock-sanlock-1.2.8-16.e17.centos.5.x86 64.rpm 
/root/rpnbuild/RPMS/x86 64/libvirt-login-shell-1.2.8-16.e17.centos.5.x86 64.rpm 


因为 当前 编译 获得 的 Libvirt 包 版 本 信息 和 YUM 源 的 版 本 信息 一 致 ， 所 以 需要 强制 覆盖 安装 。 


7) 先 安装 YUM 源 版 本 。 


yum -y install libvirt libvirt-client libvirt-daemon libvirt-daemon-config-network libvirt-daemon-config-nwfilter libvirt-daemon-driver-interface libvirt-daemon-driver-lxc libv 


8) 然后 强制 安装 编译 后 的 Libvirt 版 。 


rpm -ivh libvirt-1.2.8-16.e17.centos.5.x86 64.rpm libvirt-client-1.2.8-16.e17.centos.5.x86 64.rpm libvirt-daemon-1.2.8-16.e17.centos.5.x86 64.rpm libvirt-daemon-config-network- 


9) Libvirt 重 新 编译 安装 后 ， 即 可 使 用 RBD Pool 功 能 。 


10) 参考 KVM 和 RBD 的 配置 方法 ， 在 Ceph 生 成 客户 端 认证 Key。 


+ 若 不 存在 存储 池 vmpooll 则 创建 

[root@ceph-mon1 ~]# ceph osd pool create vmpooll 128 

[root(ceph-monl ~]# ceph auth get-or-create client.vmpooll mon 'allow r' osd 'allow rwx pool-vmpooll' 
[client.vmpooll] 

key = AQCaG/FUeHL/MxAAsRr9ike00H407rQ/NJkhhQ-- 


11) 把 这 个 Key 信 息 填写 到 CloudStack， 如 图 7-1 所 示 。 

Qe: 管理 员 可 以 自 定义 。 

QRADOS Monitor: 填写 Ceph Mon 一 个 IP 地 址 。 

GRADOS Pool: 填写 Ceph 存 储 池 ， 即 vmpool1。 

@RADOS User: 填写 访问 用 户 ， 即 vmpool1。 

GRADOS Secret: 填写 秘 钥 信息 ， 即 AQCaG/FUeHL/MXxAASRr9ike00H4o7rQ/NJkhhQ== 


填写 完毕 后 ， 在 界面 上 单 击 “ 确 定 ”按钮 。 这 样 ，CloudStack 可 以 通过 Ceph RBD 作 为 主 存储 。 


7.4 Ceph5ZStack 


ZStack (http;//zstack.org/) ， 是 一 个 全 新 的 开源 laaS 解 决 方案 ， 发 布 于 2015 征 
架构 ，ZStack 为 全 异步 架构 、 微 服务 和 一 致 性 Hash， 可 承载 高 并 发 的 API 请 求 ， 具 备 稳定 的 架构 、 非 常 简化 的 部 署 和 升级 的 特点 ， 架 构 如 


托管 : https://github.com/zstackorg/zstack。 


Q Smtr 


群集 


ZONE1 


PPODi  — 


CLUSTER1 


* 协议 : 


RADOS Monitor: 


RADOS Pool: 


RADOS User: 


RADOS Secret: 


存储 标签 : 


7-1 填写 key 信 息 


F4 月 。ZStack 目 标 是 解决 数据 中 心 自动 化 问题 ， 并 能 通过 API 实 现 对 计算 、 存 储 入 


For XenServer, choose 
NFS, iSCSI, or PreSetup. 
For KVM, choose NFS, 
SharedMountPoint, RDB, 
CLVM or Gluster. For 
vSphere, choose VMFS 
(iSCSI or FiberChannel) or 
NFS. For Hyper-V, choose 
SMBJ/CIFS. For LXC, 
choose NFS or 
SharedMountPoint. For 
OVM, choose NFS or 
ocfs2. 


图 7-2 所 示 。ZStack 同 样 采 


0 网 络 资源 的 分 配 。 相 比 其 他 laaS 技 术 
Apache License v2.0 发 布 源码 ， 源 码 
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图 7-2 ”ZStack 整 体 架构 示意 图 


以 ZStack 版 本 0.9 为 例 ， 在 CentOS 7.2 x86_64 环 境 下 单 节点 快速 部 署 ZStack。 


单 节点 模式 下 ， 请 在 支持 CPU 硬件 虚拟 化 的 服务 器 上 部 署 (或 者 在 打开 谋 套 虚拟 化 的 虚拟 机 运行 ) ， 并 至 少 配置 CPU 4 核心 和 内 存 8GB， 并 在 根 目录 预 留 100GB 硬 盘 空 间 。 读 者 可 以 使 用 国内 开源 镜像 
配置 CentOS-Base 和 EPEL 仓 库 。 


,中国 科学 技术 大 学 开源 镜像 : http://mirrors.ustc.edu.cn/ o 
- 阿里 云 开源 镜像 : http://mirrors.aliyun.com/« 
管理 节点 安装 过 程 如 下 。 


1) 下 载 安装 脚本 。 


curl -L http://download.zstack.org/releases/0.9/0.9.0/zstack-install.sh -o install-zstack.sh 


2) 执行 部 署 。 


sudo bash install-zstack.sh -a 

# 国 内 读者 可 以 通过 国内 CDN 下 载 ZStack 安 装 包 

curl -L http://download.zstack.org/releases/0.9/0.9.0/zstack-install.sh -o install-zstack.sh 

sudo bash install-zstack.sh -a -f http://7xi31j.coml.z0.glb.clouddn.com/releases/0.9/0.9.0/zstack-all-in-one-0.9.0.tgz 


3) 安装 结束 后 ， 可 通过 网 页 或 者 命令 行 的 方式 管理 ZStack。 浏 览 器 访问 http://ip:5000/ 即 可 跳 转 到 登录 界面 ， 界 面 如 图 7-3 所 示 。 


ZStack API Details @ 


Please sign in 
Account 


Password 
Login 


图 7-3 ZStcki 3d 


默认 管理 员 登 录 账 号 为 admin ， 密 码 为 password。 


4) 通过 系统 命令 行 登录 ， 方 式 如 下 。 


[root@sa~]# zstack-cli 

ZStack command line tool 

Type "help" for more information 

Type Tab key for auto-completion 

Type "quit" or "exit" or crl-d to exit 
»»»LogInByAccount accontName-admin password-password 
{ 


"inventory": { 


:"Nov 30, 2015 11:14:53 AM", 
"userUuid":"36c27e8ff05c4780bf682fa65700f22e", 


, 
"success" :true 


>>> 


ZSstack 支 持 丰富 的 操作 命令 。 详 细 命 令 解释 和 API 使 用 ， 请 参看 : http://zstackdoc.readthedocs.org/en/latest/。 


如 果 以 上 都 可 执行 ， 表 明 ZStack 已 经 安装 ， 但 是 需要 进行 初始 化 才能 使 用 。ZStack 支 持 5 种 经 典 的 网 络 场景 ， 分 别 是 EIP、Flat Network, Three Tiered Network, Security Group 和 Elastic Port 
Forwarding。 同 时 ，ZStack 不 局 限 以 上 的 经 典 网 络 场景 ， 可 以 根据 业务 场景 组 合 不 同 的 网 络 服务 。 


ZStack 详 细 的 经 典 网 络 场景 设 定 : http://zstack.org/tutorials/。 其 中 ， 教 程 提 及 的 主 存储 使 用 NFS， 备 份 存储 使 用 SFTP。 读 者 可 选择 较为 简单 的 Flat Network 进 行 配置 ， 配 置 成 功 后 ， 即 可 启动 第 一 
台 虚 拟 主机 。 


1.ZStack+Ceph 场 景 


从 0.9 版 本 开始 ，ZStack 正 式 支持 Ceph 作 为 主 存储 (Primary Storage) 和 备份 存储 (Backup Storage) 的 设备 。ZStack 在 Ceph 上 实现 了 主 存储 和 备份 存储 的 统一 ， 避 免 了 卷 和 镜像 的 来 回 拷贝 引 来 
的 带宽 消耗 。ZStack+ Ceph 场 景 的 架构 如 图 7-4 所 示 。 
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图 7-4 ZStack+Ceph 场 景 的 架构 


ZStack 会 在 Ceph Mon 节 点 同时 部 署 主 存储 和 备份 存储 的 代理 服务 (PS Agent, BS Agent) ， 通 过 心跳 检测 和 一 致 性 Hash 算 法 把 关于 存储 操作 的 任务 调度 到 健康 状态 的 代理 服务 器 上 ， 执 行 后 并 回 
调 。 所 以 ，ZStack 与 Ceph 集 成 的 管理 架构 具备 先天 的 高 可 用 和 可 扩展 能 力 。 


与 CloudStack 和 OpenStack 不 同 的 是 ，ZStack 和 Ceph 之 间 的 交互 是 通过 部 署 在 Ceph Mon 服 务 器 上 的 代理 服务 (Agent) 来 完成 的 。ZStack 从 0.9 版 本 开始 ， 支 持 Ceph RBD 作 为 主 存储 被 备份 存储 ， 
其 增加 的 CLI 如 下 。 


AddCephBackupStorage AddCephPrimaryStorage AddMonToCephBackupStorage AddMonToCephPrimaryStorage QueryCephBackupStorage QueryCephPrimaryStorage RemoveMonFromCephBackupStorage Re 


其 中 : 
- AddCephPrimaryStorage: 添加 Ceph 作 为 主 存储 ， 主 要 存放 镜像 缓存 和 虚拟 机 运行 的 系统 盘 与 数据 盘 ， 部 署 主 存 储 代理 。 
* AddCephBackupStorage: 添加 Ceph 作 为 备份 存储 ， 主 要 存储 模板 和 快照 ， 部 署 备份 存储 代理 。 


: AddMonToCephBackupStorage: 为 Ceph 备 份 存储 添加 Mon 管 理 节点 ， 部 署 备份 存储 代理 。 


: AddMonToCephPrimaryStorage: 为 Ceph 主 存储 添加 Mon 管 理 节点 ， 部 署 主 存 储 代理 。 

- QueryCephBackupStorage: 查询 Ceph 备 份 存储 的 对 象 ， 包 含 模 板 和 快照 。 

* QueryCephPrimaryStorage: 查询 Ceph 主 存储 的 对 象 ， 包 含 虚拟 机 的 系统 盘 和 数据 盘 。 

* RemoveMonFromCephBackupStorage: 从 Ceph 备 份 存储 移 除 Mon 节 点 (ZStack 识 别 操作 ， 并 非 对 Ceph 集 群 操作 ) o 
+ RemoveMonFromCephPrimaryStorage: 从 Ceph 主 存储 移 除 Mon 节 点 (ZStack 识 别 操作 ， 并 非 对 Ceph 集 群 操作 ) o 
2.ZStack 添 加 Ceph 作 为 主 存储 

在 ZStack 的 网 页 界面 操作 ， 添 加 Ceph 集 群 作为 主 存储 ， 如 图 7-5 所 示 。 


在 添加 主 存储 (Primary Storage) 时 ， 选 择 Ceph 作 为 主 存储 类 型 ， 并 填写 Mon 服 务 器 域名 /IP 地 址 、 用 户 名 和 对 应 密码 。 这 里 需要 注意 的 是 ， 用 户 可 以 添加 单个 Mon 节 点 ， 也 可 以 添加 多 个 Mon 节 
点 。ZStack 会 对 所 添加 Mon 的 节点 部 署 主 存储 的 代理 服务 。 


CREATE PRIMARY STORAGE PRIMARY STORAGE 


INFO 
ZONE 


ATTACH CLUSTER 
zone-za3a v | 


(Required) select zone where the Primary Storage is being created 
NAME 


Ceph 


DESCRIPTION 


(Optional) max length of 2048 characters 


(Required) select type of primary storage 
HOSTNAME 


192.168.0.124 9 


SSH USER NAME 


root 


The user must have root privilege on the ceph mon server 


SSH PASSWORD 


seen o9 
ED s add at least one ceph mon server 


MON URL 


x root password(Q 192.168.0.123 


Previous Imm 


ZStack 支 持 通过 命令 行 添 加 Ceph 作 为 主 存储 。AddCephPrimaryStorage 命 令 支 持 的 参数 如 下 。 


7-5 添加 Ceph 集 群 作为 主 存储 


表 7-1 AddCephPrimaryStorage 命 令 支持 的 参数 


y 
BE 


zoneUuid 

monUris 

name 
dataVolumePoolName 
description 


imageCachePoolName 


bd 


数 
resourceUuid 
rootVolumePoolName 
systemTags 

timeout 


userTags 


其 中 ， 粗 体 标 记 为 必需 参数 。 


上 文中 在 Web 界 面 添 加 Ceph 存 储 的 例子 ， 可 通过 以 下 命令 行 执行 ， 效 果 相同 。 


说 明 
主 存储 所 属 Zone 的 Uuid 
Mon 节点 的 地 址 ， 支 持 多 节 ， 
定义 主 存储 名 字 
数据 盘 指 定 目标 存储 池 
主 存储 信息 描述 
镜像 缓存 指定 目标 存储 池 


Ir 


"^ 


说 明 
指定 主 存储 UUID 
系统 盘 指定 目标 存储 池 
定义 系统 标签 
定义 监控 检测 超时 时 间 
定义 用 户 标 签 


>>>AddCephPrimaryStorage name-ceph 


zoneUuid-d914841733fa499c9dc6d63ea339469d monUrls-root:password6192.168.0.123, root:password8192.168.0.124,root:password8192.168.0.125 


在 以 上 创建 主 存储 过 程 中 ，ZStack 会 生成 唯一 JUUID 作 为 对 应 的 镜像 缓存 、 系 统 盘 和 数 提 


镜像 缓存 、 系 统 盘 和 数据 盘 使 用 。 在 Mon 节 点 预先 执行 : 


居 盘 的 存储 池 ， 并 在 存储 池 名 字 开 头 标记 识别 用 途 。 读 者 可 以 预先 创建 了 特定 的 Ceph 存 储 池 ， 给 Zstack 提 供 作为 


Ceph osd pool create cache-disk-pool 256 256 
ceph osd pool create root-disk-pool 256 256 
ceph osd pool create data-disk-pool 256 256 


在 Zstack-cli 命 令 行 工具 执行 以 下 命令 行 : 


»»»AddCephPrimaryStorage name-ceph zoneUuid-d914841733fa499c9dc6d63ea339469d monUrls-root:password8192.168.0.123,root:password8192.168.0.124,root:passwo-rd8192.168.0.125 imageC 


3.ZStack 添 加 Ceph 作 为 备份 存储 


在 添加 备份 存储 时 ， 选 择 Ceph 作 为 主 存储 类 型 ， 并 填写 Mon 服 务 器 域名 /IP 地 址 、 用 户 名 和 对 应 密码 ， 如 图 


和 添加 主 存储 类 似 ， 


ZStack 支 持 通 过 命令 行 来 添加 Ceph 作 为 备份 存储 。AddCephBackupStorage 命 令 支 持 的 参数 如 下 。 


7-6 所 示 。 


户 可 以 添加 单个 Mon 节 点 ， 也 可 以 添加 多 个 Mon 节 点 。ZStack 会 对 所 添加 Mon 的 节点 部 署 主 存储 的 代理 服务 。 


CREATE BACKUP STORAGE BACKUP STORAGE 


INFO 
NAME 


ATTACH ZONE 
ceph 


DESCRIPTION 


(Optional) max length of 2048 characters 


(Required) select type of backup storage 


HOSTNAME 


192.168 0.123 E 


USER NAME 


root d 


The user must have root privilege on the ceph mon server 


PASSWORD 


和 9 
Please add at least one ceph mon server 


MON URL 


x rootpassword(Q 192.168.0122 


Previous e 


图 7-6 ”填写 相关 信息 
表 7-2 AddCephBackupStorage 命 令 支 持 的 参数 


name 定义 备份 存储 名 字 

monUrls Mon 节点 的 地 址 ， 支 持 多 节点 
description 备份 存储 信息 描述 

poolName 备份 存储 指定 目标 存储 池 


resourceUuid 指定 备份 存储 UUID 
systemTags 定义 系统 标签 

userTags 定义 用 户 标签 

timeout 定义 监控 检测 超时 时 间 


其 中 ， 粗 体 标 记 为 必需 参数 。 


上 文中 在 Web 界 面 添 加 Ceph 存 储 的 例子 ， 可 通过 以 下 命令 行 执行 ， 效 果 相同 。 


»»»AddCephBackupStorage name-ceph monUrls-root:password6192.168.0.123,root:pa-ssword8192.168.0.124,root:password8192.168.0.125 


在 以 上 创建 备份 存储 过 程 中 ，ZStack 会 生成 唯一 JUID 作 为 备份 存储 池 ， 并 在 存储 池 名 字 开 头 标记 识别 用 途 。 用 户 可 以 预先 创建 特定 的 Ceph 存 储 池 ， 作 为 ZStack 的 备份 存储 ， 在 Mon 节 点 预先 执行 : 


ceph osd pool create backup-pool 256 256 


在 ZStack-cli 命 令 行 执行 以 下 命令 行 


>>>AddCephBackupStorage name-ceph 
monUrls=root :password@192.168.0.123, root:password@192.168.0.124, root:password@192.168.0.125 poolName-backup-pool 


主 存储 和 备份 存储 添加 完成 后 ， 可 通过 Web 界 面 或 者 CLI 命 令 操作 磁盘 卷 。 其 相关 的 CLI 命 令 如 下 。 


AttachDataVolumeToVm BackupDataVolume BackupVolumeSnapshot 

ChangeVolumeState CreateDataVolume CreateDataVolumeFromVolumeSnapshot 

CreateDataVolumeFromVolumeTemplate CreateDataVolumeTemplateFromVolume CreateRootVolumeTemplateFromRootVolume 
CreateRootVolumeTemplateFromVolumeSnapshot CreateVolumeSnapshot DeleteDataVolume 

DeleteVolumeSnapshot DeleteVolumeSnapshotFromBackupStorage DetachDataVolumeFromVm 

GetDataVolumeAttachableVm GetVmAttachableDataVolume GetVolumeFormat 

GetVolumeSnapshotTree QueryVolume QueryVolumeSnapshot 

QueryVolumeSnapshotTree RevertVolumeFromSnapshot UpdateVolume 

UpdateVolumeSnapshot 


读者 查阅 ZStack 用 户 CLI 手 册 ， 可 以 了 解 关于 磁盘 卷 的 操作 : http://zstackdoc.readthedocs.org/en/latest/, 


7.5 “Ceph 提 供 iSCSI 存储 


1.iSCSI 介 绍 


1998 年 ，iSCSI 由 IBM 公 司 和 Cisco 公 司 开发 ， 允 许 在 硬件 设备 、IP 协 议 上 层 运行 SCSI 指 令 集 (SCSI over TCP) 。iSCSI 最 大 的 特点 就 是 ， 可 以 实现 在 |P 网 络 上 运行 SCSI 协 议 ， 使 其 能 够 在 
100/1000/10000Mbps 的 以 太 网 上 进行 传输 。 目 前 ，iSCSI 技 术 已 经 非常 流行 ， 经 党 被 应 用 于 高 可 用 集群 、 数 据 库 集群 和 虚拟 化 等 领域 。2003 年 ，IETF (InternetEngineering Task Force， 互 联网 工程 任 
务 组 ) 接收 iSCSI 成 为 一 项 存储 访问 标准 ， 


iSCSI 的 工作 过 程 如 下 。 
| iSCSI 主机 应 用 程序 发 出 数据 读 写 请 求 ， 操 作 系 统 会 生成 一 个 相应 的 SCSI 命 令 。 
:该 SCSI 命 令 在 iSCSI initiator 层 被 封装 成 iSCSI 消息 包 并 通过 TCP/IP 传 送 到 存储 设备 的 以 太 网 口 。 
: 存储 设备 的 以 太 网 口 的 iSCSI target 层 会 解 开 iSCSI 消息 包 ， 获 得 SCSI 命 令 的 内 容 ， 存 储 设 备 获 得 的 SCSI 命 令 ， 传 送 给 SCST 设 备 执行 。 
“ 存储 设备 执行 SCSI 命 令 后 的 响应 ， 在 经 过 iSCSI tatget 层 时 被 封装 成 iSCSI 响应 PDU， 通 过 以 太 网 传送 给 主机 的 iSCSI initiator 层 。 
“iSCSI initiator 会 从 iSCSI 响 应 PDU 里 解析 出 SCSI 响 应 并 传送 给 操作 系统 ， 操 作 系 统 再 响应 给 应 用 程序 。 


iSCSI 技术 优点 和 成 本 优势 的 主要 体现 包括 以 下 几 个 方面 。 


1) 硬件 成 本 低 : 构建 iSCSI 存储 网 络 ， 除 了 存储 设备 外 ， 交 换 机 、 线 缆 和 接口 卡 都 是 标准 的 以 太 网 配件 ， 价 格 相对 来 说 比较 低廉 。 同 时 ，iSCSI 还 可 以 在 现 有 的 网 络 上 直接 安装 ， 并 不 需要 更 改 企业 的 网 
络 体系 ， 这 样 可 以 最 大 程度 地 节约 投入 。 


2) 维护 方便 : 对 iSCSI 存储 网 络 的 管理 ， 实 际 上 就 是 对 以 太 网 设备 的 管理 。 当 iSCSI 存储 网 络 出 现 故障 时 ， 问 题 定位 及 解决 也 会 因为 以 太 网 的 普及 而 变 得 容易 。 


3) 扩展 性 强 : 对 于 已 经 构建 的 iSCSI 存储 网 络 来 说 ， 增 加 iSCSI 存储 设 备 和 服务 器 都 将 变 得 简单 ， 且 无 需 改 变 网 络 的 体系 结构 。 


4) 带宽 和 性 能 : iSCSI 存储 网 络 的 访问 带宽 依赖 以 太 网 带宽 。 随 着 干 兆 以 太 网 的 普及 和 万 兆 以 太 网 的 应 用 ，iSCSI 存 储 网 络 会 达到 甚至 超过 FC 存 储 网 络 的 带宽 和 性 能 。 


5) 突破 距离 限制 : iSCSI 存储 网 络 使 用 的 是 以 太 网 ， 因 而 在 服务 器 和 存储 设备 的 空间 布局 上 的 限制 就 会 少 很 多 ， 甚 至 可 以 跨越 国家 和 地 区 。 


2.Linux 下 的 iSCSI Initor 和 Target 


Open-iSCSI (http://www.open-iscsi.org/) 是 比较 常用 的 Linux iSCSI Initor 工 具 ， 担 当 iSCSI 客户 端 角色 。 类 似 Rados Gateway 方 式 ， 通 过 iSCSI Gateway 方 法 实现 Ceph/RBD 提 供 iSCSI 协议 存储 访 
间 ， 如 图 7-7 所 示 。 


根据 前 面 章节 内 容 可 知 ，Ceph RBD 提 供 两 种 场景 的 访问 方式 : 内 核 态 Kernel RBD 和 用 户 态 Librbd 实 现 读 写 访问 。 


CLuster network 


m FS md op 


Cluster map 


/ public network 


Cluster map Data I/O 


Data I/O 
iSCSI GW(s) 


图 7-7 iSCSI 网 关 与 Ceph 存 储 通信 逻辑 图 


其 他 ceph 


client(s) 


基于 内 核 态 Kernel RBD 实 现 iSCSI Target。 目 前 GNU/Linux 常 见 的 iSCSI Target 都 支持 块 设备 作为 Target 的 后 端 存储 ， 可 以 让 Ceph 的 内 核 态 RBD 客 户 端 将 块 设备 映射 到 本 地 ， 然 后 选择 合适 的 iSCSI 
Target 映 射 这 个 RBD 块 设备 作为 LUN 导 出 。 基 于 用 户 态 Librbd 接 口 实现 iSCSI Target。 除 了 iSCSI Target 访 问 本 地 块 设备 外 ， 另 一 种 方案 是 让 iSCSI Traget 通 过 用 户 态 Librbd 接 口 实现 数据 读 写 功能 。 


在 众多 实现 iSCSI 对 接 Ceph/RBD 的 方案 中 ，Tgt (https;//github.com/fujita/tgt) 支持 基于 用 户 态 Librbd 实 现 后 端 存储 的 访问 ， 实 现 过 程 较为 简单 。 


3.Tgtd+Ceph 部 署 


一 般 情况 下 ，Tgtf 作 为 iSCSI Gateway 需 要 独立 部 署 ， 而 且 考 虑 高 可 用 性 ， 还 需要 两 个 或 两 个 以 上 的 iSCSI Gateway。 由 于 服务 器 硬件 条 件 的 限制 ， 可 以 考虑 把 Tgt 部 署 在 Mon 节 点 上 面 ， 这 样 Mon 节 点 
服务 器 充当 了 iSCSI Gateway。 以 下 是 Tgt 在 CentOS 7.2 系 统 上 的 部 署 流程 。 


1) 准备 编译 环境 。 


[root@ceph-monl ~]# yum -y rpm-build gcc ceph librbdl-devel 


2) 获取 Tgt。 


[rootéceph-monl ~]# git clone https://github.com/fujita/tgt.git 


3) 进入 目录 后 编辑 。 


[root@ceph-monl tgt]# vim Makefile 

http://www .hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 
# Export the feature switches so sub-make knows about them 

export ISCSI RDMA export CEPH RBD = 1 

export GLFS BD g 

export SD NOTIFY 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 
[rootGceph-monl tgt]# vim scripts/tgtd.spec ni 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 
$( mandir)/man5/* 

$( mandir)/man8/* 

$( initrddir)/tgtd 

/usr/lib/tgt/backing-store/bs rbd.so 

/etc/bash completion.d/tgt 

%attr (0600, root, root) $config(noreplace) /etc/tgt/targets.conf 

http: //www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/... 


4) 编译 。 


[root@ceph-mon1 tgt]# make rpm 


5) 生成 安装 文件 。 


[rootéceph-monl tgt]# ls pkg/RPMS/x86 64/ 
scsi-target-utils-1.0.62-v1.0.62.x86 64.rpm scsi-target-utils-debuginfo-1.0.62-v1.0.62.x86 64.rpm 
[root8ceph-monl tgt]# 


6) 在 3 个 MON 节 点 安装 Tgt rpm 包 。 


[rootéceph-moni tgt]# rpm -ivh pkg/RPMS/x86 64/scsi-target-utils-1.0.62-v1.0.62.x86 64.rpm --force 


7) 在 Ceph 创 建 块 设备 。 


[root@ceph-mon1 ~]# rbd create pooll/imagel --size 200 --image-format 2 


8) 安装 完成 后 ， 在 每 个 Mon 服 务 器 上 都 添加 Ceph/RBD 配 置 文件 。 


[root(ceph-monl ~]# cat /etc/tgt/conf.d/ceph.conf 
«target iqn.2015-12.rbd.test.com:iscsi-01» 
driver iscsi 

bs-type rbd 

backing-store pooll/imagel 

«/target» 

[root(ceph-monl ~]# 


9) 启动 Tgt 服 务 。 


[root@ceph-monl ~]# service tgtd start 


10) 在 客户 端 服务 器 上 安装 iSCSI Initor 程 序 。 


[rooteiscsi-1 ~]# yum -y install iscsi-initiator-utils 


11) 扫描 iSCSI Target, 


[root(ceph-monl ~]# iscsiadm -m discovery -t sendtargets -p 10.89.13.71 
10.89.13.71:3260,1 ign.2015-12.rbd.test.com:iscsi-01 
[root(ceph-monl ~]# iscsiadm -m discovery -t sendtargets -p 10.89.13.72 
10.89.13.72:3260,1 ign.2015-12.rbd.test.com:iscsi-01 
[root(ceph-monl ~]# iscsiadm -m discovery -t sendtargets -p 10.89.13.73 
10.89.13.73:3260,1 ign.2015-12.rbd.test.com:iscsi-01 


12) 登录 iSCSI Target, 


iscsiadm -m node -T ign.2015-12.rbd.test.com:iscsi-01 -p 10.89.13.71 --login 
iscsiadm -m node -T iqgn.2015-12.rbd.test.com:iscsi-01 -p 10.89.13.72 --login 
iscsiadm -m node -T ign.2015-12.rbd.test.com:iscsi-01 -p 10.89.13.73 --login 


13) 发 现 本 地 设备 。 


[rootQiscsi-1 ~]# fdisk -1 
Disk /dev/vda: 53.7 GB, 53687091200 bytes, 104857600 sectors 
Units = sectors of 1 * 512 = 512 bytes 
Sector size (logical/physical): 512 bytes / 512 bytes 
I/O size (minimum/optimal): 512 bytes / 512 bytes 
Disk label type: dos 
Disk identifier: 0x00099ff6 
Device Boot Start End Blocks Id System 
/dev/vdal * 2048 96258047 48128000 83 Linux 
/dev/vda2 96258048 104857599 4299776 82 Linux swap / Solaris 
Disk /dev/sda: 209 MB, 209715200 bytes, 409600 sectors 
Units = sectors of 1 * 512 = 512 bytes 
Sector size (logical/physical): 512 bytes / 4194304 bytes 
I/O size (minimum/optimal): 4194304 bytes / 4194304 bytes 
Disk /dev/sdb: 209 MB, 209715200 bytes, 409600 sectors 
Units = sectors of 1 * 512 = 512 bytes 
Sector size (logical/physical): 512 bytes / 4194304 bytes 
I/O size (minimum/optimal): 4194304 bytes / 4194304 bytes 
Disk /dev/sdc: 209 MB, 209715200 bytes, 409600 sectors 
Units = sectors of 1 * 512 = 512 bytes 
Sector size (logical/physical): 512 bytes / 4194304 bytes 
I/O size (minimum/optimal): 4194304 bytes / 4194304 bytes 


14) 配置 多 路 径 。 


[rootüiscsi-1 ~]# yum -y install device-mapper-multipath 
[root(iscsi-1 ~]# vim /etc/multipath.conf 

defaults ( 

user friendly names yes 

udev dir /dev 

path grouping policy multibus 

failback immediate 

no path retry fail 

} 

[rootüiscsi-1 ~]# service multipathd start 

[root(iscsi-1 ~]# multipath -11 

mpatha (360000000000000000e00000000010001) dm-0 IET ,VIRTUAL-DISK 
Size-200M features-'0' hwhandler-'0' wp-rw 

^-—- policy-'service-time 0' Prio=1 status-active 

|- 2:0:0:1 sda 8:0 active ready running 

l- 3:0:0:1 sdb 8:16 active ready running 

`= 4:0:0:1 sdc 8:18 active ready running 


至 此 ， 客 户 端 主机 通过 Tgtd 间 接 实现 将 数据 存放 到 Ceph 中 。 
4. 应 用 场景 


iSCSI 是 较为 广泛 的 共享 块 存储 设备 协议 。Ceph 通 过 Tgtd 方 式 实现 将 RBD 块 存储 转译 为 iSCSI 存储 访问 协议 ， 可 以 提供 VMware ESXi, Citrix XenServer, Microsoft Hyper-V、oVirt 和 Oracle VM 等 虚 
拟 化 场景 ， 也 可 以 提供 如 Oracle RAC 和 Microsoft MSCS 等 高 可 用 集群 数据 库 场景 。 


76 ”本 章 小 结 


本 章 阐述 了 Ceph 的 块 存储 RBD 服 务 ， 向 读者 介绍 了 RBD 作 为 KYM 虚 拟 机 的 云 硬 盘 对 接 原理 ， 包 括 OpenStack、CloudStack 和 ZStack 通 过 Ceph RBD 承 载 其 云 硬盘 的 配置 过 程 。 同 时 ， 也 阐述 了 Ceph 
RBD 服 务 通过 Tgt 实 现 iSCSI 协议 网 关 ， 提 供 iSCSI 存储 ， 在 不 需要 修改 应 用 软件 逻辑 的 前 提 下 ， 提 供 更 广泛 的 共享 块 存储 服务 。 


第 8 章 ，” 对象 存 储 一 一 云 盘 与 RGW 异 地 灾 备 


对 象 存储 服务 基于 HTTP 协 议 ， 在 互联 网 以 及 移动 互联 网 中 有 着 得 天 独 厚 的 优势 ， 特 别 是 存储 多 媒体 数据 (如 图 片 、 音 频 、 视 频 等 ) 。 在 实际 应 用 方面 ， 大 家 熟知 的 各 类 云 盘 、 图 片 和 音 视频 云 存储 服 
务 ， 基 本 上 都 是 利用 对 象 存储 技术 ， 因 此 对 象 存储 早已 经 遍布 在 各 类 互联 网 服务 中 ， 成 为 互联 网 不 可 分 割 的 一 部 分 。 


8.1 网 盘 方 案 : RGW 与 OwnCloud 的 整合 


在 过 去 的 几 年 里 ， 网 盘 服务 (例如 Dropbox、Box、Google Drive 等 ) 已 经 变 得 非常 流行 。 通 过 使 用 Ceph， 能 够 使 用 任何 基于 S3 或 Swift 的 前 端 应 用 来 部 署 本 地 的 (on-premise) 网 盘 服 务 。 本 节 将 会 
讲述 Ceph S3 对 接 OwnCloud 网 盘 服务 的 方法 。 


为 了 对 接 OwnCloud， 首 先 需 要 一 个 已 有 的 Ceph 集 群 ， 还 需要 一 个 能 通过 S3 访 问 Ceph 存 储 的 RGW 实 例 ，OwnCloud 环 境 架 构 如 图 8-1 所 示 。 


在 本 节 中 我 们 将 使 用 名 为 ceph-1 的 radosgw 实 例 来 创建 文件 同步 和 共享 服务 。 同 时 会 使 用 本 地 的 DNS 服务 ， 此 服务 配置 在 rgow-nodes 上 ， 支 持 S3 子 域 (subdomain) 访问 ceph-1 RGW 实 例 。 当 然 ， 
也 可 以 使 用 任何 能 够 为 ceph-1 做 子 域 解析 的 DNS 服务 器 。 
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图 8-1 OwnCloud 环 境 架 构 


1) 登录 到 rgw-node1,， 该 节点 也 是 DNS 服 务 器 ， 可 以 使 用 如 下 内 容 来 创建 /var/named/ceph-1.cephchina.com 文 件 。 


@ 86400 IN SOA cephchina.com. root.cephchina.com. ( 
20091028 ; serial yyyy-mm-dd 

10800 ; refresh every 15 min 

3600 ; retry every hour 

3600000 ; expire after 1 month + 

86400 ); min ttl of 1 day 

Q@ 86400 IN NS cephchina.com. 

G 86400 IN A 192.168.1.107 

* 86400 IN CNAME G 


2) 配置 ceph-1 使 用 DNS 服务 器 。 将 rgw-node1 的 地 址 更 新 到 /etc/resolve.conf 文 件 ，ping 任 意 一 个 子 域 ， 它 会 被 解析 到 ceph-1 的 地 址 。 


3) 确保 ceph-1 节 点 可 以 通过 S3 连 接 到 Ceph 存 储 集群 。 我 们 已 经 创建 了 名 为 us-east 的 用 户 ， 现 在 通过 s3cmd 命 令 来 使 用 它 的 access key 和 secret_key。 


@ 安 装 s3cmd。 


# yum install -y s3cmd 


@ 配 置 S3cmd， 提 供 XNK0ST8WXTMWZGN29NF9 作 为 access_key 和 7VJm8uAp71xKQZkjoPZmHu4sACA1SY8jTjay9dP5 作 为 secret_key。 


# s3cmd - configure 


@@ 编 辑 /root.s3cmd 中 的 host 信 息 。 


host_base = ceph-1.cephchina.com:7480 
host bucket = $(bucket)s.ceph-1.cephchina.com:7480 


@ 测 试 s3cmd 连 接 。 


# s3cmd 1s 


@@ 为 OwnCloud 创 建 用 于 存放 对 象 的 S3 bucket, 


# s3cmd mb s3://owncloud 


4) 接 下 来 ,我们 将 安装 OwnCloud， 它 将 会 为 我 们 提供 文件 同步 和 共享 服务 的 前 端 /用 户 界面 。 
@ 环 境 准备 。 
# yum install httpd mod ssl php php-gd php-xml php-mysql php-mbstring 


@ 配 置 OwnCloud 的 系统 源 。 


# cd /etc/yum.repos.d/ 

# wget http://download.opensuse.org/repositories/ 
isv:iownCloud:community/CentOS CentOS-6/ 
isv:ownCloud:community.repo 


# rpm 


-Uvh http: //download.fedoraproject.org/pub/epel/6/x86 64/epel- release-6-8.noarch.rpm 


@ 因 为 这 是 测试 环境 ， 所 以 禁用 防火 墙 。 


4 systemctl disable firewalld 
# systemctl stop firewalld 


@ 从 网 页 浏览 器 上 访问 OwnCloud 的 网 页 : http://192.168.*.*/owncloud/， 并 创建 密码 为 owncloud 的 管理 账号 ， 如 图 8-2 所 示 。 


@ 第 一 次 登录 和 下 图 界面 相似 ， 如 图 8-3 所 示 。 


5) 配置 OwnCloud 来 将 Ceph 用 作 一 种 S3 外 部 存储 。 


@ 使 


OwnCloud 管 理 账号 ， 依 次 单 击 Files 一 Apps 一 Not enabled—External Storage， 单 击 Enable it， 就 可 以 激活 外 部 存储 。 


@ 然 后 配置 其 外 部 存储 使 用 Ceph。 选 择 OwnCloud 用 户 ， 选 择 admin， 再 回 到 左边 的 面板 上 ， 选 择 “External Storage”。 


@ 还 可 


以 先 选 择 Enable User External Storage， 然 后 移动 到 Amazon S3 and compliant 一 Add Storage 一 Amazon $3 and Compliant 来 配置 Amazon S3 和 其 他 兼容 的 存储 。 
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ownCloud - 你 控制 下 的 网 络 服 务 


图 8-2 创建 管理 账号 


图 8-3 首次 登录 界面 


6) 输入 Ceph radosgw 用 户 详细 信息 ， 包 括 access key, secret key 和 hostname ( 见 图 8-4) : 


“ Folder name (文件 夹 ) ， 输 入 想 在 OwnCloud 文 件 页 面 上 显示 的 Folder name. (文件 夹 名 称 ) 。 
* Access key， 输 入 S3 Access Key: XNKOST8WXTMWZGN29NF9。 

“ Secret key， 输 入 S3 Secret key: 7VJm8uAp71xKQZkjoPZmHu4sACA1SY8jTjay9dP5"。 

“ Bucket， 输 入 我 们 在 步骤 3 中 创建 的 S3 Bucket 名 。 

: Hostname (主机 名 ) ， 输 入 ceph-1.cephchina.com 作 为 主机 名 。 

- Port (端口 ) ， 输 入 7480。 

“ Region. (可 选 的) ， 输 入 US (可 选 的 ) o 


* Available for， 输 入 owncloud (可 选 的 ) o 


External Storage 


Note: “smbcllent” is not installed. Mounting of 5MB / CIFS and SMB / CIFS ustng OC login is not possible. Please ask your system administrator to 


install it. 


XNKOSTSWXTMWZGN 


Amazon S3 and owndoud us-east-1 .cephcookb« 
©  Ce^s3 : 
compliant 
7480 


Enable SSL Enable Path Style 


Enable User External Storage 
Allow users to mount the following external storage 
Amazon $3 and compliant 


Dropbox 

FTP 

Google Drive 

OpenStack Object Storage 
ownCloud 

SFTP 

WebDAV 


8-4 输入 Ceph radosgw 用 户 详细 信息 


7) 只 要 您 完成 了 前 面 步 骤 ，OwnCloud 就 可 以 通过 S53 连接 到 Ceph 集 群 了 ， 您 将 会 在 Folder name (文件 夹 名 ) 前 面 看 到 一 个 绿色 的 


8) 接 下 来 ， 通 过 OwnCloud 网 页 用 户 界 面 上 传 你 的 文件 。 导 航 至 Files 一 External Storage， 单 击 ceph-s3 来 上 传 文件 或 目录 。 


x owncloud 


Ej, 如 


8-4 所 显示 的 那样 。 


9) 切换 至 ceph-1 节 点 ,执行 S3cmd ls s3: Wowncloud 命 令 来 验证 ， 这 些 文 件 已 经 被 添加 到 Ceph 存 储 集群 中 了 。 你 将 会 看 到 从 OwnCloud 网 页 用 户 界面 上 传 的 文件 。 


8.2 ”RGW 的 异地 同步 方案 


通过 在 单个 Ceph 集 群 之 上 搭建 RGW 服 务 ， 可 以 很 轻松 地 实现 一 套 基于 HTTP 标 准 的 对 象 存储 解决 方案 ， 但 是 对 象 存储 服务 一 般 都 是 面向 互联 网 一 类 的 应 用 ， 一 方面 互联 网 应 用 要 求 较 高 的 可 靠 性 ， 另 一 
方面 还 需要 最 大 可 能 地 跨越 地 域 限制 去 提供 高 速 稳定 的 接 入 服务 。 


而 RGW 异 地 同步 方案 ， 刚 好 就 是 为 了 解决 互联 网 服务 的 上 述 需求 的 。 一 方面 在 多 个 地 理 位 置 存 放 数据 实现 服务 的 高 可 靠 和 高 可 用 ， 另 一 方面 借助 DNS 负载 均衡 、CDN 等 成 熟 技 术 手段 ， 提 供 近 端 访 
问 ， 从 而 实现 客户 端的 高 速 接 入 。 


863 本章 小 结 


本 章 通过 介绍 RGW 与 OwnCloud 结 合 的 方案 ， 搭 建 最 简单 的 网 盘 服务 ， 让 读者 可 以 切身 体会 到 RGW 服 务 在 互联 网 应 用 的 接 入 优势 。 然 后 介绍 了 RGW 异 地 同步 方案 ， 结 合 笔者 自身 的 实际 项 目 经 验 ， 由 
浅 至 深 地 让 读者 在 最 短 的 时 间 内 掌握 基本 的 异地 同步 基本 理论 及 基本 设计 思想 ， 并 应 用 到 实际 项 目 。 本 文 涉及 的 RGW 异 地 同步 内 容 还 比较 基础 ， 加 上 笔者 水 平 有 限 ， 一 些 理论 和 实践 经 验 还 存在 不 足 ， 对 这 
一 方面 感 兴趣 的 读者 可 以 自行 查阅 官方 文档 及 源码 深入 学 习 。 
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9.1 需求 模型 与 设计 


Ceph 是 一 款 开源 的 分 布 式 存储 软件 ， 它 的 设计 决定 了 它 是 一 种 灵活 、 高 效 、 可 靠 、 廉 价 的 开源 存储 解决 方案 ， 它 的 优点 在 于 灵活 、 可 扩展 、 无 单 点 故障 、 统 一 接口 等 。 


Ceph 的 硬件 选 型 需要 根据 存储 需求 和 使 用 场景 来 制定 。 不 同 的 企业 有 着 不 同 的 存储 需求 场景 。Ceph 是 一 款 开 源 统一 存储 软件 ， 也 就 是 说 ， 它 可 以 从 一 个 集群 中 提供 文件 、 块 和 对 象 存储 。 也 能 够 在 同 
一 个 集群 中 ， 针 对 不 同 的 工作 负载 ， 提 供 不 同 类 型 的 存储 池 。 这 种 设计 允许 企业 根据 自身 需求 调整 Ceph 存 储 。 多 种 方法 可 以 定义 你 的 存储 需求 ， 图 9-1 列 举 了 3 种 存储 场景 类 型 。 


C 高 性 能 场景 : 这 种 配置 的 类 型 亮点 在 于 它 在 低 TCO (ownership 的 总 消耗 ) 下 每 秒 拥有 最 高 的 OPS。 典 型 的 做 法 是 使 用 包含 了 更 快 的 SSD 硬 盘 、PCle SSD、NVMe 做 数据 存储 的 高 性 能 节点 。 通 常用 于 
块 存储 ， 也 可 以 用 在 高 IOPS 的 工作 负载 上 。 


“ 通用 场景 : 亮点 在 于 高 吞吐 量 和 每 吞吐 量 的 低 功 耗 。 通 用 的 做 法 是 拥有 一 个 高 带宽 、 物 理 隔离 的 双重 网 络 ， 使 用 SD 和 PCIe SSD 做 OSD 日 志 盘 。 这 种 方法 常用 于 块 存储 ， 如 果 你 的 应 用 场景 需要 高 性 
能 的 对 象 存储 和 文件 存储 ， 也 可 以 考虑 使 用 。 


: 大 容量 场景 : 亮点 在 于 数据 中 心 每 TB 存储 的 低 成 本 ， 以 及 机 架 单元 物理 空间 的 低 成 本 。 也 被 称 为 经 济 存储 、 廉 价 存储 、 存 档 /长 期 存储 。 通 用 的 做 法 是 使 用 插 满 机 械 硬 盘 的 密集 服务 器 ， 一 般 是 36~72 
台 服务 器 ， 每 台 服 务 器 4~6TB 的 物理 硬盘 空间 。 通 常用 于 低 功 耗 、 大 存储 容量 的 对 象 存 储 和 文件 存储 。 一 个 好 的 备 选 方案 是 采用 纠 删 码 来 最 大 化 存储 容量 。 
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图 9-1 三 种 存储 场景 类 型 


第 9 章 Ceph 硬 件 选 型 、 性 能 测试 与 优化 


91 需求 模型 与 设计 


Ceph 是 一 款 开源 的 分 布 式 存储 软件 ， 它 的 设计 决定 了 它 是 一 种 灵活 、 高 效 、 可 靠 、 廉 价 的 开源 存储 解决 方案 ， 它 的 优点 在 于 灵活 、 可 扩展 、 无 单 点 故障 、 统 一 接口 等 。 


Ceph 的 硬件 选 型 需要 根据 存储 需求 和 使 用 场景 来 制定 。 不 同 的 企业 有 着 不 同 的 存储 需求 场景 。Ceph 是 一 款 开 源 统一 存储 软件 ， 也 就 是 说 ， 它 可 以 从 一 个 集群 中 提供 文件 、 块 和 对 象 存储 。 也 能 够 在 同 
一 个 集群 中 ， 针 对 不 同 的 工作 负载 ， 提 供 不 同 类 型 的 存储 池 。 这 种 设计 允许 企业 根据 自身 需求 调整 Ceph 存 储 。 多 种 方法 可 以 定义 你 的 存储 需求 ， 图 9-1 列 举 了 3 种 存储 场景 类 型 。 


C 高 性 能 场景 : 这 种 配置 的 类 型 亮点 在 于 它 在 低 TCO (ownership 的 总 消耗 ) 下 每 秒 拥有 最 高 的 OPS。 典 型 的 做 法 是 使 用 包含 了 更 快 的 SSD 硬 盘 、PCle SSD、NVMe 做 数据 存储 的 高 性 能 节点 。 通 常用 于 
块 存储 ， 也 可 以 用 在 高 IOPS 的 工作 负载 上 。 


“ 通用 场景 : 亮点 在 于 高 吞吐 量 和 每 吞吐 量 的 低 功 耗 。 通 用 的 做 法 是 拥有 一 个 高 带宽 、 物 理 隔离 的 双重 网 络 ， 使 用 SD 和 PCIe SSD 做 OSD 日 志 盘 。 这 种 方法 常用 于 块 存储 ， 如 果 你 的 应 用 场景 需要 高 性 
能 的 对 象 存储 和 文件 存储 ， 也 可 以 考虑 使 用 。 


E 


: 大 容量 场景 : 亮点 在 于 数据 中 心 每 TB 存储 的 低 成 本 ， 以 及 机 架 单元 物理 空间 的 低 成 本 。 也 被 称 为 经 济 存储 、 廉 价 存储 、 存 档 / 长 期 存储 。 通 用 的 做 法 是 使 用 插 满 机 械 硬盘 的 密集 服务 器 ， 一 般 是 36~72 
台 服 务 器 ， 每 台 服 务 器 4~6TB 的 物理 硬盘 空间 。 通 常用 于 低 功 耗 、 大 存储 容量 的 对 象 存储 和 文件 存储 。 一 个 好 的 备 选 方案 是 采用 纠 删 码 来 最 大 化 存储 容量 。 
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图 9-1 三 种 存储 场景 类 型 
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正如 前 面 所 提 到 的 ，Ceph 的 硬件 选 型 需要 根据 环境 和 存储 需求 做 出 选 型 计划 。 硬 件 的 类 型 、 网 络 和 集群 设计 ， 是 你 在 Ceph 集 群 设 计 前 期 要 考虑 的 一 些 关键 因素 。Ceph 选 型 没有 黄金 法 则 ， 因 为 它 依赖 


各 种 因素 ， 比 如 预算 、 性 能 和 容量 ， 或 者 两 种 的 结合 、 容 错 性 ， 以 及 使 用 场景 。 


企业 可 以 根据 预算 、 性 能 /容量 需求 、 使 用 场景 自由 地 选择 任意 硬件 。 在 存储 集群 和 底 


硬 


A 


1.CPU 


层 基础 设施 上 ， 他 们 有 完全 控制 权 。 另 外 ，Ceph 的 一 个 优势 是 它 支持 异 构 硬件 。 当 创建 Ceph 集 群 时， 你 可 以 混合 


件 品 牌 。 例 如 ， 可 以 混合 使 用 来 自 不 同 厂家 的 硬件 ， 比 如 HP、Dell、Supermicro 等 ， 混 用 现 有 的 硬件 可 以 大 大 降低 成 本 。 下 


面 说 一 些 常 上 


Ceph metadata Server 会 动态 地 重新 分 配 负载 ， 它 是 CPU 敏感 性 的 ， 所 以 Metadata Server 应 该 有 比较 好 的 处 理 器 性 能 


Ceph OSD 运 行 RFADOS 服 务 ， 需 要 通过 CRUSH 来 计算 数据 的 存放 位 置 ， 复 制 数 所 


比如 四 


((CPU sockets * CPU cores per socket * CPU clock speed in GHz) / No.Of OSD) »-1 


Ceph Monitors 简 单 地 维护 了 Cluster Map 的 主干 信息 ， 所 以 Monitors 是 CPU 不 敏感 的 。 


2.RAM 内 存 


Metadata Servers 以 及 Monitors 必 须 能 够 快速 地 提供 数据 ， 


因 


3 数据 存储 


核 CPU) 。 


的 关于 Ceph 硬 件 选 型 的 方法 。 


居 ， 以 及 维护 Cluster Map 的 拷贝 。 通 常 建议 每 个 OSD 进 程 至 少 有 一 个 CPU 核 。 可 以 用 下 面 的 公式 计算 OSD 的 CPU 需 


此 必须 有 充足 的 内 存 (至 少 每 个 进程 16B) 。OSD 在 日 常 操作 时 不 需要 过 多 的 内 存 (如 每 进程 500MB) ; 但 是 ， 在 执行 恢复 操作 时 ， 就 
需要 大 量 的 内 存 (如 每 进程 每 TB 数据 需要 约 1GB 内 存 ) 。 通 常 来 说 ， 内 存 越 多 越 好 。 


规划 数据 存储 时 要 考虑 成 本 和 性 能 的 权衡 。 进 行 系统 操作 ， 同 时 多 个 后 台 程序 对 单个 驱动 器 进行 读 写 操作 会 显著 降低 性 能 。 


4. 网 络 


也 有 文件 系统 的 限制 考虑 : BTRFS 对 于 生产 环境 来 说 不 是 很 稳定 ， 但 有 能 


建议 每 台 机 器 最 少 有 两 个 干 兆 网 卡 ， 现 在 大 多 数 机 械 硬盘 都 能 达到 100M B/s 的 吞吐 量 ， 网 卡 能 处 理 所 有 OSD 硬 盘 总 吞吐 量 ， 所 以 推荐 最 少 安装 两 个 干 兆 网 卡 ， 分 别 用 于 公 网 (前 端 ) 和 集群 网 络 (后 
端 ) 。 集 群 网 络 (最 好 别 连接 到 外 网 ) 用 于 处 理由 数据 复制 产生 的 额外 负载 ， 而 且 可 防止 DOS 攻 击 ，DOS 攻 击 会 干扰 PG 数 据 ， 使 之 在 OSD 数 据 复制 时 不 能 回 到 Active+ Clean 状 态 。 


但 是 ,一 般 生产 环境 会 建议 部 署 万 兆 网 卡 。 下 


到 20 分 钟 和 1 小 时 。 所 以 


5. 硬 盘 


Ceph 集 群 的 性 能 很 大 程度 上 取决 了 


， 一 般 使 


面 可 以 算 一 笔 账 ， 假 设 通过 1Gbps 网 络 复制 1TB 数 据 需要 耗 时 3 小 时 ， 而 3TB (典型 配置 ) 就 需要 9 小 时 ， 相 比 之 下 ， 如 果 使 
Ceph 都 会 部 署 万 兆 网 卡 。 


存储 介质 的 有 效 选择 。 应 该 在 选择 存储 介质 之 前 了 解 集群 的 工作 负载 和 性 能 需求 。Ceph 使 


10Gbps 复 制 时 间 可 分 别 缩减 


存储 介质 有 两 种 方法 : OSD 日 志 盘 和 OSD 数 据 盘 。Ceph 的 每 一 次 写 操 


作 分 两 步 处 理 。 当 一 个 OSD 接 受 请 求 写 一 个 object 时 ， 它 首先 会 把 object 写 到 acting set 中 的 OSD 对 应 的 日 志 盘 ， 然 后 发 送 一 个 写 确认 给 客户 端 。 很 快 ， 日 志 数 据 会 同步 到 数据 盘 。 值 得 注意 的 是 ， 在 写 性 


BEL, 副本 也 是 一 个 重 


素 。 副 本 


素 通常 要 在 可 靠 性 、 性 能 和 TCO 之 间 平 衡 。 


6.Ceph OSD 日 志 盘 


如 果 工 作 环境 是 通 


场景 的 需求 ， 那 么 建议 使 


辑 分 


区 (A), RA 


一 个 OSD 数 据 盘 。 通 常 10~20GB 


Ceph 使 
一 个 SSD。PC 


中 最 常见 


Oza 


的 两 种 非 易 失 性 快速 存储 的 类 型 是 SATA、SAS SSD, PCles;NVMe SSD。 若 想 在 SATA/SAS SSD 之 外 获得 高 性 能 ，SSD 和 OSD 的 比例 应 该 是 1:4。 也 就 是 说 ，4 个 OSD 数 
e 或 者 NVMe 闪 存 设备 的 情况 ， 取 决 于 设备 性 能 ，SSD 和 OSD 比 例 在 1:12 到 1:18 之 间 。 也 就 是 说 ，12~18 个 OSD 数 据 硬盘 共享 一 个 闪存 设备 。 


SSD 做 日 志 盘 。 使 用 SSD， 可 以 减少 访问 时 间 ， 降 低 写 延 迟 ， 大 幅 提升 吞吐 量 。 使 用 SSD 做 


志 盘 ， 可 以 对 每 个 物理 SSD 创 建 多 个 逻辑 分 区 ， 每 个 SSD 逻 


志 大 小 足以 满足 大 多 数 场景 。 如 果 你 有 一 个 更 大 的 SSD， 不 要 忘记 为 OSD 增 加 filestore 的 最 大 和 最 小 的 同步 时 间 间 隔 。 


PERHE 


这 里 提 到 的 SSD 和 OSD 的 比例 是 非常 常见 的 ， 能 良好 工作 在 大 多 数 场景 下 。 但 是 ， 鼓 励 大 家 针对 具体 的 工作 场景 和 环境 测试 SSD/PCIe， 得 到 最 好 的 效果 。 


使 
成 本 。 


我 人 


日 志和 数据 盘 。 这 意味 着 ， 从 大 容量 的 机 械 硬盘 中 分 配 少量 GB 的 空间 给 


9.3 ”性 能 调 优 


对 于 Ceph 运 维 人 员 来 说 最 头痛 的 莫 过 了 


(1) 硬件 层面 


“ 硬件 规划 。 


"SSD 选择 。 


: BIOS 设 置 。 


(2) 操作 系统 


BU 
m 


: Linux Kernel, 


“内存 。 


* Cgroups 


(3) 网 络 


| ES Mi. 


“ 中断 亲 和 。 


- 硬件 加 速 。 


(4) Ceph 层 


E 


“ Ceph 参 数 。 
* PG Number 调 整 。 


* Ceph 参 数 配置 示例 


] 已 经 学 习 了 许多 关于 SSD 日 志 的 配置 ， 知 道 这 些 做 法 能 大 幅 提升 写 性 能 。 然 而 ， 丸 


SSD 搭 建 集 群 ， 会 增加 每 GB 


I" 


个 SSD 存 储 多 份 日 志 的 不 足 之 处 是 ， 一 旦 丢失 存储 多 份 日 志 的 SSD， 所 有 的 关联 这 个 SSD 的 OSD 就 出 问题 了 ， 很 有 可 能 丢失 数 
而 且 ， 每 GB 的 SSD 的 成 本 近乎 10 倍 于 HDD。 所 以 ， 使 有 


居 。 不 过 ， 可 以 通过 对 日 志 做 RAID1 来 解决 这 个 问题 ， 但 这 会 增加 


的 费用 。 但 是 ， 如 果 你 希望 大 幅 提 升 性 能 ， 那 么 把 钱 花 在 SSD 做 日 志 上 是 值得 的 。 


志 盘 ， 其 余 容量 


两 件 


9.4 ”Ceph 测 试 


在 Ceph 上 线 之 前 要 进行 测试 ， 看 看 Ceph 是 否 能 够 满足 


9.55 本章 小 结 


本 章 阔 述 了 Ceph 的 硬件 选 型 、 性 能 调 优 以 及 Ceph 测 试 的 内 容 ， 优 化 是 一 个 长 期 迭代 的 过 程 ， 所 有 的 方法 都 是 别人 的 ， 只 有 在 实践 过 程 中 才能 发 现 
后 能 够 对 你 有 所 帮助 。 


点 ， 希 望 学 习 完 本 章 之 


: Ceph 调 优 与 Ceph 运 维 。 调 优 是 件 非常 头疼 的 导 


果 你 不 注重 极度 的 性 能 ， 而 且 每 GB 的 成 本 对 你 来 说 是 一 个 决定 性 | 
于 OSD 数 据 。 这 种 配置 可 能 不 像 SSD 单 独 做 


因 


素 ， 那 么 你 应 该 考虑 在 同一 个 硬盘 驱动 上 配置 
高 效 ， 但 是 每 GB 存 储 空间 的 价格 会 相当 少 。 


+9 
T 


自己 的 场景 需求 ， 下 面 会 讲 到 存储 系统 模型 以 及 如 何 测试 硬盘 和 云 硬盘 。 


自己 的 方法 。 本 章 也 介绍 了 一 些 测试 工具 和 一 些 观 
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第 10 章 ” 自 定义 CRUSH 


本 章 从 定性 和 定量 两 个 维度 让 大 家 了 解 Ceph 的 稳定 性 与 可 靠 性 ， 通 过 几 个 CURSH 设 计 实例 (两 副本 结构 、SSD 和 SATA 混 合 结构 ) 让 大 家 充分 理解 Ceph 软 件 定义 存储 的 特性 。 


10.1 CRUSH 解 析 


数据 的 可 靠 性 是 所 有 存储 系统 的 首要 指标 ， 本 节 通 过 Ceph 与 一 致 性 Hash 的 对 比 以 及 从 CRUSH 


1. 一 致 性 Hash 算 法 


一 致 性 Hash 算 法 根据 一 个 叫 作 一 致 性 Hash 环 的 数据 结构 来 实现 key 到 存储 节点 的 映射 ， 如 图 10-1 所 示 . 


算法 过 程 如 下 : 首先 会 构造 一 个 长 度 为 0~232-1 的 


整数 空间 ， 然 后 首尾 相连 ， 形 成 一 个 封闭 的 环 。 根 


值 映射 到 Hash 环 上 (如 图 10-1 中 的 node0、node1 和 node2) 。 


居 存 储 节 点 的 名 称 经 过 Hash 处 理 ， 取 得 一 个 值 〈 其 值 也 在 封闭 环 范围 


面 的 定量 分 析 ， 展 示 Ceph 在 数据 可 靠 性 方面 的 特点 。 我 们 先 来 看 一 下 一 致 性 Hash 的 原理 。 


内 ) ， 然 后 把 存储 节点 按 这 个 


假设 数据 为 x (如 


图 10-1 key 到 存储 节点 的 映 


图 10-1 中 的 key0~key4) ， 存 储 节点 数目 为 N (图 10-1 所 示 为 3) 。 将 数据 分 布 到 存储 节点 的 | 


[node2，node0]，key2 落 在 node0，node1]) ， 就 把 这 个 x 存 入 相应 的 存储 节点 中 。 


Og 


[node2，node0] 空 间 实 际 可 划分 为 node2，232 -1]49[0, node0]. 


射 


最 直接 做 法 是 ， 计 算数 据 x 的 Hash 值 ，Hash 值 落 在 哪个 区 间 内 (如 


当 有 新 的 存储 节点 添加 与 删除 时 ， 一 致 性 Hash 算 法 〈 相 较 传统 的 取 余 算法 ) 并 不 会 引起 全 局 数据 的 迁移 ， 只 会 涉及 部 分 数据 转移 ， 这 对 全 局 影响 相对 较 小 ， 如 图 10-2 所 示 。 


图 10-1 中 的 key0 落 在 


当 加 入 新 节点 时 (如 图 


而 其 他 的 数据 如 图 


HATARA 


除 时 ， 例 


图 10-2 ”存储 节点 变更 引发 的 数据 迁移 


10-2 中 的 node3) ， 原 本 [node2，node0] 的 存储 空间 被 划分 成 [node2，node3]、[node3，node2] 两 个 区 域 ， 原 来 映射 到 node0 的 key4 映 射 到 了 新 的 存储 节点 (node3) E, 
10-2 中 的 key0、key1、key2、key3 并 不 会 引起 数据 迁移 。 


如 图 


10-3 所 示 的 node2， 其 所 存储 的 key4 会 被 重新 映射 到 [node1，node0] 区 域 ， 存 储 到 node0 节 点 上 ， 其 他 数据 也 不 会 变更 。 


0-232 — 1 


-— mmm mm 
a £ 
只 
"i 
C 


nod 


图 10-3 ”node2 被 删除 


但 一 致 性 Hash 的 一 个 问题 是 ， 存 储 节点 不 能 将 Hash 空 间 均匀 划分 。 如 图 10-3 所 示 ，[node1，node0] 的 空间 的 比 Inode0，node1] 大 得 多 ， 这 容易 让 负责 该 分 区 的 节点 node0 负 载 过 重 。 假 设 两 个 节点 
的 磁盘 容量 相等 ， 那 么 当 节 点 node0 的 存储 空间 满载 时 ，node1 的 磁盘 还 有 很 大 的 空闲 空间 ， 但 此 时 系统 已 经 无 法 继续 向 Inode1，node0] 写 入 数据 ， 从 而 造成 资源 浪费 。 


2. 虚 拟 节点 


计算 机 界 有 名 名言: 计算 机 的 任何 问题 都 可 以 通过 增加 一 个 虚拟 层 来 解决 ， 计 算 机 硬件 、 计 算 机 网 络 、 计 算 机 软件 等 方面 概 莫如 此 。 为 解决 一 致 性 Hash 算 法 带 来 的 资源 使 用 分 配 不 均匀 的 问题 ， 也 可 以 
引入 虚拟 化 的 手段 。 虚 拟 节点 是 相对 于 物理 存储 节点 而 言 的 ， 虚 拟 节点 负责 的 分 区 上 的 数据 最 终 存储 到 其 对 应 的 物理 节点 。 一 台 物 理 节点 可 以 虚拟 出 一 个 或 多 个 虚拟 节点 (如 图 10-4 所 示 ， 每 个 物理 节点 只 
虚拟 一 个 ) 。 新 的 空间 为 [v0，v1]、[v1，v2]、[v2，v0]， 分 别 映射 到 node0、node1、node2 物 理 存储 节点 。 如 此 一 来 ，3 个 物理 节点 的 数据 承载 趋 于 均匀 。 


0~232— 1 0 


FN 


图 10-4 虚拟 节点 


在 实际 应 用 中 ， 可 以 根据 物理 节点 的 磁盘 容量 的 大 小 来 确定 其 对 应 的 虚拟 节点 数目 。 虚 拟 节点 数目 越 多 ， 节 点 负责 的 数据 区 间 也 越 大 。 
3.CRUSH 算 法 


Ceph 的 数据 分 布 流程 如 图 10-5 所 示 。 


hash(object name) % PG num 


Pool ID = 4 


Placement Group 


CRUSH (PG, Cluster State , rule) 7 OSD.46 


—— ÁÁ— OSD.20 | 


aa 


Primary and Secondary OSD 


图 10-5 ”Ceph 的 数据 分 布 流程 
整个 流程 如 下 。 
1) 取得 Object 的 name 进 行 Hash 运 算 。 


2) 取得 的 Hash 值 与 PG 数 取 余 ， 得 到 的 结果 与 Pool 1D 结 成 PG 的 编号 (如 图 10-5 中 的 4.32) 。 


3) 通过 CRUSH 算 法 ， 把 PG 映射 到 具体 的 OSD。 


或 者 离开 而 增加 或 减少 ， 因 此 数据 到 PG 的 映射 是 稳定 的 。 


当 在 Ceph 里 创建 存储 池 (指定 PG 的 数量 ) ， 整 个 Hash 环 就 固定 了 ， 如 图 10-6 所 示 ， 对 象 到 PG 的 映射 就 唯一 确认 ， 即 数据 具体 存储 到 哪个 PG 是 确定 的 ， 不 会 随 着 下 层 OSD 的 增删 而 改变 ， 这 充分 体现 
了 Ceph 在 数据 可 靠 性 的 特征 之 一 。 


Oza 


在 实际 环境 中 ， 切 勿 随便 变更 Pool 的 PG 数 量 ， 这 将 引起 数据 的 大 规模 迁移 。 


4.CRUSH 定 量 分 析 


根据 网 上 公开 的 资料 


0~232—1 


PGO 


PG5 


PG4 


Ts 


图 10-6 ”Hash 环 中 的 PG 


， 复 杂 推 演 PG 的 丢失 率 ( 即 数据 丢失 的 概率 ) 过 程 在 此 不 


丢失 PG 的 概率 的 公式 : P=Pr*M/C (R, N) 


其 中 : 


1) Pr 表示 R 个 (副本 数 ) OSD 故 障 的 概率 ， 跟 它 关联 的 因 


2) M 表 示 Copy Set 组 合 数 ，PG 映 射 到 一 组 OSD 里 表示 Copy set， 如 pg2.3 一 [2，3，1]。 


3) C (R, N) 表示 N 个 OSD 中 ， 任 意 R 个 OSD 的 组 合 数 。 


列 出 ， 读 者 只 要 记 住 最 后 的 公式 即 可 ， 如 下 。 


素 有 OSD 硬 盘 故 障 概率 及 恢复 (Recovery) 期 间 其 他 (R-1) OSD 的 故障 概率 。 


PG1 


PG3 


从 公式 看 ，C (R, N) 对 于 一 个 既定 的 Ceph 集 群 值 是 不 变 的 〈 从 侧面 也 证 明 副本 数 越 多 ， 集 群 规模 越 大 ，PG 丢 失 的 概率 也 越 低 ) ， 所 以 尽量 缩小 Pr、M 的 值 。 


从 上 面 看 出 Pr 值 关联 


因素 ， 一 是 缩小 OSD 硬 盘 的 故障 率 ， 二 是 缩短 恢复 的 时 间 。 


缩小 OSD 故 障 率 就 是 选择 可 靠 的 硬盘 。 


恢复 时 间 的 多 与 少 取决 于 故障 域 的 大 小 。 默 认 的 CRUSH 的 故障 域 是 Host 级 。 对 于 一 个 Host 有 3 个 OSD 的 3 


EF 机， 同时 可 恢复 的 OSD 就 是 两 个 ， 如 


10-7 所 示 。 


Dd 


host 


图 10-7 故障 恢复 


@@ 注 意 


为 什么 故障 恢复 的 时 候 只 能 在 同一 故障 域内 来 完成 呢 ? 原因 是 当 OSD 故 障 时 ，OSDWEIGHT 的 值 并 不 会 更 新 ， 故 障 域 的 权 站 
故障 的 OSD 上 的 PG 只 会 转移 到 同一 故障 域内 的 其 他 OSD。 


扩大 故障 域 可 以 缩短 恢复 时 间 ， 如 此 即 可 以 减 小 PG 的 丢失 概率 ， 如 图 10-8 所 示 。 


多 没有 变化 ，PG 映 射 到 故障 域 层 级 没有 变化 ， 从 而 不 会 进行 Rebalance， 因 此 ， 


图 10-8 故障 恢复 


在 CRUSH 中 添加 一 个 osd-region 级 的 Bucket (osd-region 是 自 定 义 的 层级 ) 。 


root default 
rack rack-01 
osd-region osdrg-01 ####6 x 3X josd-region bucket ### 
osd.0 up 1 
osd.l up 1 
osd.2 up 1 
osd.3 up 1 
osd.4 upl-- 
rack rack-02 
osd-region | osdrg-02 


osd-region osdrg-03-- 

# rules 

rule replicated ruleset { 
ruleset 0 
type replicated 
min size 1 
max size 10 
step take default 
step chooseleaf firstn 0 type osd-region  ### 指 定 选择 的 故障 域 4HHE 
step set choose tries 200 
step emit 


接 下 来 再 看 看 copy set. 


假设 一 个 Ceph 集 群 里 有 3 个 Rack， 每 个 Rack 有 8 个 Host， 每 个 Host 含 有 3 个 OSD。 


如 果 按 默认 的 CRUSH 规 则 (故障 域 为 Host) ，R=3，M=C (24, 3) x (3x3x3) =54648， 如 图 10-9 所 示 。 


图 10-9 ”默认 故障 域 
如 果 把 数据 分 散在 不 同 的 Rack 中 ， 如 图 10-10 所 示 ， 此 时 M =24x24x24=13824。 


如 果 把 PG 再 次 做 分 落 限制 ， 设 置 一 个 中 间 层 的 虚拟 域 replication-region， 在 虚拟 域 里 设置 故障 域 osd-region， 如 图 10-11 所 示 ， 此 时 copy set 的 组 合 就 更 小 了 ，M=2x (12x12x12) =3456。 


图 10-10 ”Rack 故 障 域 


图 10-11 


虚拟 故障 域 


添加 了 osd-region 和 replication-region 虚 拟 域 的 CRUSH Map 如 下 。 


root first-zone 


replication-region rep-01 


0 
osd-region osdrg-01 ###ł osd-region 里 有 12 个 OSD ### 
osd.0 up LE 


osd.ll up 1 


osd-region osdrg-03 
osd.24 up 1 
osd.35 up 1 

osd-region osdrg-05 
osd.48 up 1l 
osd.59 up EB 


replication-region  rep-02 


osd-region osdrg-02 
osd-region osdrg-04 


osd-domain  osdrg-06 


rule first-zone { 


Hr 


ruleset 0 

type replicated 

min size 1 

max size 10 

step take first-zone 

step choose firstn 1 type replication-region ### 选 择 一 个 replication-region 


step chooseleaf firstn 0 type osd-region  ### 在 所 选 rep 里 选择 osd-region 并 


最 终 取 OSD HHHH 


step set choose tries 200 
step emit 


从 表 10-1 可 知 ， 通 过 设置 合适 Crush Map 可 以 有 效 地 提高 数据 的 可 靠 性 。 从 P=Pr*M/C(R,N) 可 知 ， 示 例 中 仅仅 通过 扩大 故障 域 、 添 加 虚拟 域 的 方式 就 比 默认 Host 故 障 域 在 数据 可 靠 性 方面 至 少 提高 了 


100 倍 以 上 。 


以 下 是 基于 3 个 柜 ,每 柜 8 台 主 机 ， 每 主机 3 个 OSD (假设 定义 为 zone 单元 ) 设计 的 Crush 结 构 。 若 规模 进一步 扩大 ， 可 以 横向 以 Zone 模式 扩展 。 实 际 生产 环境 中 的 Crush 架 构 要 基于 现 有 硬件 规模 与 网 


络 拓扑 来 规划 ， 示 例 可 供 参考 。 


表 10-1 copy set 组 合 表 


osd-region 添加 replication-region 虚拟 域 


10.2 CRUSH 设 计 : 两 副本 实例 


在 一 般 的 生产 环境 中 ， 为 了 保证 数据 的 安全 性 及 可 靠 性 ， 常 用 三 副本 的 方案 来 设计 与 实施 。 但 有 时 候 基于 成 本 考虑 及 在 业务 数据 的 可 靠 性 不 是 很 高 的 情况 下 ， 会 考虑 用 两 副本 的 方案 来 实现 。 以 下 就 以 
两 副本 来 设计 与 实施 CRUSH 的 方案 。 


1 硬件 环境 
表 10-2 是 所 需 的 硬件 环境 配置 表 。 
表 10-2 硬件 环境 配置 表 
存储 节点 主机 名 OSD 编号 对 应 的 设备 
storage-101 osd.0 sdb 


storage-101 osd.1 sdc 


我 们 为 此 添加 Rack 级 的 Bucket， 分 别 包含 两 个 存储 节点 (以 Host 的 Bucket) ， 然 后 以 Rack 为 隔离 域 ， 保 证 两 个 副本 分 别 落 在 不 同 的 Rack 上 。CRUSH 的 逻辑 架构 如 图 10-12 所 示 。 


图 10-12 CRUSH 41 39 4t Jg 44 


2 部 署 


1) 利用 ceph-deploy 工 具 快 速 部 署 、 添 加 OSD。 


[root@ceph-deploy ceph-deploy]# ceph-deploy osd --zap-disk create 

storage-101:sdb storage-101:sdc storage-102:sdb storage-102:sdc V 

storage-103:sdb storage-103:sdc storage-104:sdb storage-104:sdc 

[ceph deploy.conf][DEBUG ] found configuration file at: /root/.cephdeploy.conf 

[ceph deploy.cli][INFO ] Invoked (1.5.24): /usr/bin/ceph-deploy osd --zap-disk create storage-102:sdb 
[ceph deploy.osd][DEBUG ] Preparing cluster ceph disks 

Storage-102:/dev/sdb: [ceph-deploy][DEBUG ] connected to host: storage-101 

[ceph-deploy] [DEBUG ] detect platform information from remote host 

[ceph-deploy][DEBUG ] detect machine type 

[ceph deploy.osd][INFO ] Distro info: CentOS Linux 7.1.1503 Core 


[ceph deploy.osd][DEBUG ] Deploying osd to storage-101 http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/. http: //www.hzcc 


2) 成 功 添加 OSD 之 后 ， 查 看 一 下 CRUSH 的 默认 拓扑 结构 。 


3) 再 次 查看 集群 的 拓扑 结构 。 


[root@ceph-deploy ceph-deploy]# ceph osd tree 
ID WEIGHT TYPE NAME UP/DOWN REWEIGHT PRIMARY-AFFINITY 


-1 0.72000 root default 

-2 0.18000 host storage-101 

0 0.09000 osd.0 up 1.00000 1.00000 
1 0.09000 osd.1 up 1.00000 1.00000 
-3 0.18000 host storage-102 

2 0.09000 osd.2 up 1.00000 1.00000 
3 0.09000 osd.3 up 1.00000 1.00000 
-4 0.18000 host storage-103 

4 0.09000 osd.4 up 1.00000 1.00000 
5 0.09000 osd.5 up 1.00000 1.00000 
-5 0.18000 host storage-104 

6 0.09000 osd.6 up 1.00000 1.00000 
7 0.09000 osd.7 up 1.00000 1.00000 


4) 获取 当前 的 Crush Map. 


利用 Ceph 工 具 获取 当前 Crush Map. 


[root@ceph-deploy ~]#ceph osd getcrushmap -o /tmp/mycrushmap 
got crush map from osdmap epoch 14 


5) 反 编 译 Crush Map. 


Atmp/mycrushmap 是 一 个 二 制 文件 ， 需 要 通过 crushtool 反 编译 为 文本 文件 。 


[root@ceph-deploy ceph-deploy] crushtool -d /tmp/mycrushmap > /tmp/mycrushmap.txt 


6) 查看 CRUSH。 


直接 通过 文件 编辑 工具 (如 vim) 查看 即 可。 


# begin crush map 
tunable choose local tries 0 
tunable choose local fallback tries 0 
tunable choose total tries 50 
tunable chooseleaf descend once 1 
tunable straw calc version 1 
# devices 
device 
device 
device 
device 
device 
device 
device 6 osd. 
device 7 osd. 
4 types ## 默 认 设 置 的 Bucket 层 级 dHF 
type 0 osd 
type 1 host 
type 2 chassis 
type 3 rack 
type 4 row 
type 5 pdu 

6 

7 

8 


osd. 
osd. 
osd. 
osd. 
osd. 
osd. 


-do Uu 0NPÍPO 
-o Us 0NMPO 


type 6 pod 

type room 

type 8 datacenter 

type 9 region 

type 10 root 

# buckets 

host storage-101 ( ##Host 层 级 ## 
id -2 # do not change unnecessarily 
# weight 0.180 
alg straw 
hash 0 # rjenkinsl 
item osd.0 weight 0.090 
item osd.1 weight 0.090 


host storage-102 ( 
id -3 # do not change unnecessarily 
# weight 0.180 
alg straw 
hash 0 # rjenkinsl 
item osd.2 weight 0.090 
item osd.3 weight 0.090 


host storage-103 ( 
id -4 # do not change unnecessarily 
# weight 0.180 
alg straw 
hash 0 # rjenkinsl 
item osd.4 weight 0.090 
item osd.5 weight 0.090 
} 
host storage-104 { 
id -4 # do not change unnecessarily 
# weight 0.180 
alg straw 
hash 0 # rjenkinsl 
item osd.6 weight 0.090 
item osd.7 weight 0.090 


} 
root default { 
id -1 # do not change unnecessarily 
# weight 0.720 
alg straw 
hash 0 # rjenkinsl 
item storage-101 weight 0.180 
item storage-102 weight 0.180 
item storage-103 weight 0.180 
item storage-104 weight 0.180 


} 
# rules ## 默 认 的 crush rule ## 
rule replicated ruleset { 
ruleset 0 
type replicated 
min size 1 
max size 10 
step take default 
step chooseleaf firstn 0 type host 
step emit 
l 
# end crush map 


7) 编辑 CRUSH。 


@@ 添 加 自 定 义 的 Rack 层 级 ， 依 据 我 们 的 逻辑 图 设计 ， 并 把 原来 的 Host 层 级 的 storage-101 和 storage-102 划 分 到 rack-01、storage-103 和 storage-104 划 分 到 rack-02。 


rack rack-01 { ## rack 层级 dH 
id -5 # do not change unnecessarily 
# weight 0.180 
alg straw 
hash 0 # rjenkinsl 
item storage-101 weight 0.180 
item storage-102 weight 0.180 
} 
rack rack-02 { ## rack 层级 dH 
id -6 # do not change unnecessarily 
# weight 0.180 
alg straw 
hash 0 # rjenkinsl 
item storage-103 weight 0.180 
item storage-104 weight 0.180 


@ 修 改 root 层 级 ， 把 rack-01 和 rack-02 添 加 到 里 面 。 


root default { 
id -1 # do not change unnecessarily 
# weight 0.720 
alg straw 
hash 0 # rjenkinsl 
item rack-01 weight 0.360 
item rack-02 weight 0.360 


@ 把 默认 的 Host 层 级 故障 域 修改 为 Rack 层 级 。 


rule replicated ruleset { 
ruleset 0 ` 
type replicated 
min size 1 


max size 10 

step take default 

step chooseleaf firstn 0 type rack ## 就 是 这 里 #4 
step emit 


8) 编译 crushmap 文 本 文件 为 二 进 制 文件 。 


[rootéceph-deploy ceph-deploy]fcrushtool -c /tmp/mycrushmap.txt -o /tmp/mycrushmap .new 


9) 把 新 的 crushmap 应 用 于 集群 ， 使 之 生效 。 


[root@ceph-deploy ceph-deploy]#ceph osd setcrushmap -i /tmp/mycrushmap.new 


10) Crush Map 应 用 之 后 ，PG 就 会 重新 分 布 ， 此 时 带宽 和 1O 就 会 增长 。 为 了 不 影响 线 上 业务 ， 可 以 对 带宽 按 QoS 策略 做 处 理 。 


Ozas 
“ 在 调整 之 前 做 好 crushmap 的 备份 ， 以 防 crush 设 置 不 当时 能 够 及 时 复原 。 
:crush 的 设计 应 该 在 业务 系统 上 线 之 前 敲定 ， 在 线 调整 将 面临 极 大 的 风险 ， 必 须 慎 之 又 慎 。 
“ 副本 数 为 2 时 ， 我 们 创建 的 pool 的 max_size 应 该 修改 为 2，min_size 为 1。 
- 有 时 候 reblance 未 能 达到 完全 收 伊 ， 可 能 需要 设置 unable 值 为 optimal， 即 使 用 ceph osd crush tunable optimal 调 整 。 
- 设置 osd crush update on start 为 flse， 防 止 OSD 重 启 更 新 crushmap。 
拓展 : 通过 命令 行 在 线 修改 Crush Map 
这 里 我 们 也 讲 一 下 如 何 通过 命令 行 实现 在 线 修改 Crush Map， 达 到 设计 的 效果 。 


(1) 添加 Rack 层 级 : 'rack-01' 和 'rack-02'。 


[root@ceph-deploy ceph-deploy]#ceph osd crush add-bucket rack-01 rack 
[rootéceph-deploy ceph-deploy]sceph osd crush add-bucket  rack-01 rack 


(2) 把 rack-01 和 track-02 转 移 到 root 下 面 。 


[rootéceph-deploy ceph-deploy]#ceph osd crush move rack-01 root-default 
[root(ceph-deploy ceph-deploy]#ceph osd crush move rack-02 root-default 


(3) 把 Host 转 移 到 Rack 层 级 里 。 


[root@ceph-deploy ceph-deploy]#ceph osd crush move storage-101 rack-rack-01 root-default 
[root(ceph-deploy ceph-deploy]f&ceph osd crush move storage-102 rack-rack-01 root-default 
[root(ceph-deploy ceph-deploy]#ceph osd crush move storage-103 rack-rack-02 root-default 
[root(ceph-deploy ceph-deploy]#ceph osd crush move storage-104 rack-rack-02 root-default 


(4) 创建 以 Rack 为 隔离 域 的 新 rule。 


[root(ceph-deploy ceph-deploy]#ceph osd crush rule create-simple newrule default rack firstn 


(5) 为 pool (假设 存储 池 名 为 newpool) 指定 所 选用 的 newrule (ceph osd crush rule dump 可 获取 newrule 的 id) 。 


[root@ceph-deploy ceph-deploy]4ceph osd pool set newpool crush ruleset 1 
BHHOCAEL dS /EruleY rule idit 4) 4fi4HHHE 


10.3 CRUSH 设 计 : SSD、SATA 混 合 实例 
随 着 固态 硬盘 的 成 本 大 幅度 降低 ，SSD 已 经 “ 飞 入 寻常 百姓 家 ”了 。SSD 的 高 性 能 已 经 让 不 少 应 用 享受 了 高 0 的 福利 ，Ceph 也 不 例外 。 下 面 将 对 SSD 与 Ceph 结 合 的 几 种 常见 应 用 场景 进行 氮 述 与 实 


战 。 


10.4 “模拟 测试 CRUSH 分 布 


Ceph 通 过 Crush 实 现 数据 的 伪 随 机 分 布 。 在 Ceph 里 ， 一 旦 你 的 Crush Map 创 建成 功 (无 变更 ) ， 你 创建 的 所 有 Object 对 应 于 OSD 的 映射 关系 就 已 经 确认 了 。 这 就 是 作者 所 理解 的 伪 随 机 分 布 ， 先 决 条 
件 已 经 确认 ， 可 以 推算 数据 的 具体 分 落 。 在 现实 环境 中 ， 很 少 有 大 规模 的 Ceph 集 群 环境 (100 个 节点 以 上 ) 提供 测试 Crush Map。 读 者 可 以 通过 crushtool 这 个 利器 实现 模拟 测试 CRUSH 分 布 。 方 法 如 下 。 


1) 通过 crushrool 创 建 crushmap 文 件 。 


[root@ceph-deploy ceph-deploy]#crushtool --outfn crushmap --build --num osds 10 host straw 2 rack straw 2 default straw 0 
2015-10-09 15:00:15.194369 7f£20e30fc780 1 

ID WEIGHT TYPE NAME 

-9 10.00000 default default 


-6 4.00000 rack rack0 

-1 2.00000 host host0 
0 1.00000 osd.0 
1 1.00000 osd.1 
-2 2.00000 host hostl 
2 1.00000 osd.2 
3 1.00000 osd.3 
-7 4.00000 rack rackl 


-3 2.00000 host host2 
4 1.00000 osd.4 
5 1.00000 osd.5 
-4 2.00000 host host3 
6 1.00000 osd.6 
7 1.00000 osd.7 
-8 2.00000 rack rack2 
-5 2.00000 host host4 
8 1.00000 osd.8 
9 1.00000 osd.9 
其 中 : 
“ --outfn crushmap 表 示 导 出 的 map 的 文件 名 是 crushmap; 
“ --build 表 示 创 建 一 个 crushmabp; 
< --num_osds 表 示 此 map 包 含 10 个 osd，host straw 2 表示 每 个 host 里 包含 两 个 osd，tack straw 2 表示 每 个 rack 里 包含 两 个 host，default straw 0 表示 所 有 的 rack 都 包含 在 一 个 root 里 。 
Oza 


crush 的 层级 可 以 自 定义 添加 ， 比 如 在 Rack 层 级 上 可 以 添加 dc 级 ， 整 个 结构 为 --num_osds 10 host straw 2 rack straw 2 dc straw 1 default straw 0， 生 成 的 crush map 如 下 所 示 。 


ID WEIGHT TYPE NAME 
-12 10.00000 default default 


-9 4.00000 dc dc0 

-6 4.00000 rack rack0 

-1 2.00000 host host0 
0 1.00000 osd.0 
1 1.00000 osd.1 
-2 2.00000 host hostl 
2 1.00000 osd.2 
3 1.00000 osd.3 
-10 4.00000 dc dcl 

-7 4.00000 rack rackl 

-3 2.00000 host host2 
4 1.00000 osd.4 
5 1.00000 osd.5 
-4 2.00000 host host3 
6 1.00000 osd.6 
7 | 1.00000 osd.7 
-11 2.00000 dc dc2 

-8 2.00000 rack rack2 

-5 2.00000 host host4 
8 1.00000 osd.8 
9 1.00000 osd.9 


2) 创建 之 后 会 在 本 地 目录 生成 一 个 crushmap 的 二 进 制 文件 ， 我 们 可 以 通过 crushtool 工 具 进 行 反 编 译 。 


[root@localhost ceph ]# crushtool -d crushmap -o map.txt 
[root(localhost ceph ]# 11 

total 8 

TÉW-E 
-IW-r 


-- 1 root root 833 Oct 9 15:13 crushmap 
-- 1 root root 2351 Oct 9 15:20 map.txt  ## 可 编辑 文件 dH 


3) 打开 本 地 的 map.txt， 我 们 会 发 现 crush type 部 分 只 有 我 们 创建 的 那 几 个 层级 (如 下 所 示 ) ， 不 再 是 默认 的 Crush Map 的 10 个 层级 。 


# begin crush map 

tunable choose local tries 0 

tunable choose local fallback tries 0 
tunable choose total tries 50 
tunable chooseleaf descend once 1 
tunable straw calc version 1 

# devices T T 

device 0 device0 

device 1 devicel 
device 2 device2 
device 3 device3 
device 4 device4 
device 5 device5 
device 6 device6 

device 7 device? 

device 8 device8 

device 9 device9 

# types 

type 0 device 

type 1 host 

type 2 rack 

type 3 dc 

type 4 default HF bucket 层 级 只 有 指定 创建 的 几 个 类 型 HE 

# buckets 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15953/OEBPS/Text/. . http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 


4) 为 map.txt 添 加 自 定 义 的 crush rule, 


rule custom { 
ruleset 1 
type replicated 
min size 1 
max size 10 
step take default 
step choose firstn 1 type dc 
step chooseleaf firstn 0 type host 
step emit 


rule custom 简 要 说 明 。 
“ 在 toot 层 级 里 选择 一 个 dc 层级 作为 后 续 隔 离 域 的 基础 。 
| 在 选中 的 dc 层级 里 ， 以 host 为 隔离 域 ， 选 择 osd。 


5) 编辑 好 需要 的 crushmap 之 后 ， 再 次 通过 crushtool 进 行 编译 。 


[root@localhost]# crushtool -c map.txt -o map.bin 
[root@localhost]# 11 

total 12 

-EW 
—rtw-: 
-IW-r 


—- 1 root root 833 Oct 9 15:13 crushmap 
1 root root 1071 Oct 9 15:36 map.bin ## 新 的 Crush map 文件 ## 
1 root root 2575 Oct 9 15:31 map.txt 


6) 测试 Crush Map. 


[root(loclahost ]# crushtool -i map.bin --test --show-statistics --rule 1 --min-x 1 --max-x 5 --num-rep 2  --show-mappings 

rule 1 (custom), x = 1http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/..5, numrep = 2http://www.hzcourse.com/resource/re 
CRUSH rule 1 x 1 [9]  ## 映 射 关系 , 即 Object 1 映射 到 了 OSD 9 iH 

CRUSH rule 1 x 2 [7,4] ## Object 2 映射 到 了 OSD 7. 4 #ł 

CRUSH rule 1 x 3 [7,4] 

CRUSH rule 1 x 4 [2,0] 

CRUSH rule 1 x 5 [7,4] 


rule 1 (custom) num rep 2 result size — 1: 1/5 
rule 1 (custom) num rep 2 result size — 2: 4/5 
其 中 : 


“ --test 表 示 调 用 crushtool 里 的 测试 功能 。 

* --show-statistics 表 示 显 示 统 计 结 果 。 

-rule 1 表示 使 用 tule 1， 即 我 们 自己 创建 的 fule customs 

“ -min-x 1--max-x 5 表示 创建 的 object 的 数量 (如 果 不 指定 ， 表 示 创 建 1024) 。 
“ -num-rep 2 表示 创建 的 副本 数 为 2。 


“ -Show-mappings 表 示 显 示 具 体 的 映射 关系 。 


rule 1 (custom) num rep 2 result size — 1: 1/5 
rule 1 (custom) num rep 2 result size == 2: 4/5 


“ 前 者 表示 1/5 的 object 成 功 映 射 到 了 一 个 osd 上 ( 即 表示 映射 有 不 成 功 ) o 


“ 后 者 表示 4/5 的 object 成 功 上 映射 到 了 两 个 osd 上 ( 即 表 示 映 射 成 功 ) o 


从 前 文 的 Cursh Map 可 知 ， 当 crush 选 择 dc 层 级 的 dc2 时 ， 由 于 在 此 层级 下 只 有 一 个 Host， 且 隔离 域 刚 好 为 Host， 所 以 无 法 再 映射 第 二 副本 ， 如 图 10-16 所 示 。 


2015-18-09 15:52:48.306764 7faf5536c780 1 
WEIGHT TYPE NAME 
10.00000 default default 
4.00000 
4.00000 rack rackb 
2.00000 host 
1.00000 
1.00000 
2.00000 
1.00000 
1.00000 
4.00000 
4.00000 rack rackl 
2.00000 host 
1.00000 
1.000008 
2.000008 
1.00000 
1.00000 
2.00000 dc dc2 
2.00000 rack rack2 
2.00000 host 
1.00000 
1.00000 


图 10-16 crush map 结 构图 


此 外 ， 还 可 以 添加 --tree 显 示 crushmap 的 树 状 结构 ，--show-choose-tries 显 示 映 射 时 retry 的 次 数 。 这 个 值 可 以 在 tunables 部 分 里 找到 。 可 以 通过 --set-choose-total-tries 强 制 指定 


[root@localhost]# crushtool -i map.bin --test --show-statistics --rule 1 --min-x 1 --max-x 5 --num-rep 2 --show-mappings --set-choose-total-tries 1 -o newmap 。 间 # 强 制 指 只 制 符 
rule 1 (custom), x = 1http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/15953/OEBPS/Text/..5, numrep = 2http://www.hzcourse.com/resource/re 
CRUSH rule 1 x 1 [9] 机 映射 失败 ## 


CRUSH rule 1 x 2 [7]  ## 映 射 失败 dH 

CRUSH rule 1 x 3 [7,4] 

CRUSH rule 1 x 4 [2,0] 

CRUSH rule 1 x 5 [7,4] 

rule 1 (custom) num rep 2 result size — 1: 2/5 
rule 1 (custom) num rep 2 result size == 2: 3/5 


显然 这 个 值 会 影响 CRUSH 的 分 布 效果 ， 默 认 值 为 50。 


--show-utilization 可 以 显示 OSD 的 实际 的 object 映 射 数 以 及 目标 映射 值 。 


device 0: stored : 1 expected : 0.5 
device 2: stored : 1 expected : 0.5 
device 4: stored : 2 expected : 0.5 
device 7: stored : 3 expected : 0.5 
device 9: stored : 1 expected : 0.5 
Oze 


更 多 的 设置 可 以 通过 man crushtool 获 取 。 


10.5 ”本章 小 结 


通过 本 章 学 习 ， 读 者 可 以 从 定性 和 定量 两 方面 了 解 到 Ceph 的 稳定 性 与 可 靠 性 。 本 章 中 列举 了 常用 的 CRUSH 使 用 场景 ， 通 过 灵活 设计 CRUSH 方 案 ， 实 现 “ 指 哪 存 哪 ” 的 目标 ， 真 正 做 到 了 软件 定义 存 
储 。 大 家 在 充分 理解 本 章 内 容 的 基础 上 ， 就 可 以 根据 实际 的 场景 ， 设 计 出 适合 自己 的 CRUSH。 
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11.1. 缓冲 池 原 理 


缓冲 (Cache， 为 便于 读者 理解 ， 本 文 直接 使 用 Cache) 技术 是 为 了 协调 吞吐 速度 相差 较 大 的 设备 之 问 数据 传送 而 采用 的 技术 。 


加 


传统 上 ，Cache 为 了 缓和 CPU 和 1O 设 备 速度 不 匹配 的 矛盾 ， 提 高 CPU 和 1O 设 备 的 并 行 性 而 存在 的 ， 在 现代 操作 系统 中 ， 几 乎 所 有 的 19 设 备 在 与 CPU 交换 数据 时 都 用 了 Cache。 所 以 ， 在 计算 机 组 成 呈 
每 个 部 件 的 设计 都 可 以 看 到 Cache 的 影 


例如 ，CPU 的 L1 Cache, L2 Cache 和 L3 Cache， 甚 至 还 有 L4 Cache (IBM Power8) 。 文 件 系统 会 设计 页 面 缓存 (Page Cache) ， 而 硬盘 内 部 也 会 设计 易 失 性 缓存 ， 一 般 容量 为 16/32/64MB。 


既然 提 及 Cache， 也 需要 说 明 一 下 缓冲 (英文 Buffer， 同 理 ， 本 文 直接 使 用 Buffer) 。 为 了 让 大 家 区 分 Cache 和 Buffer 概 念 ， 我 们 仔细 分 析 一 下 。 


Cache 的 设计 原理 是 把 读 取 过 的 数据 保存 起 来 ， 如 果 在 以 后 的 操作 中 重新 读 取 时 则 命中 (找到 需要 的 数据 ) ， 就 不 要 去 读 较 慢 的 设备 ， 若 没有 命中 就 读 较 慢 的 设备 。 Cache 的 目标 是 把 频繁 读 取 的 数据 
进行 组 织 ， 并 把 这 些 内 容 放 在 最 容易 找到 的 位 置 ， 而 把 不 再 读 的 内 容 不 断 往 后 排 ， 直 至 从 Cache 中 删除 。 实 际 上 ， 读 者 会 想到 ，Cache 就 是 优先 存放 “ 热 数据 ”， 其 性 能 指标 是 “命中 率 ”。 


Buffer 的 设计 原理 是 把 分 散 的 写 数 据 内 容 集 中 进行 ， 按 照 一 定 周期 写 到 目标 设备 。 典 型 的 应 用 场景 是 磁盘 写 ， 通 过 Buffer 机 制 ， 写 数据 时 候 减少 磁盘 碎片 和 硬盘 的 反复 寻 道 过 程 ， 从 而 提高 系统 的 性 
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我 们 可 以 暂且 认为 Cache 是 针对 读 优化 ， 而 Buffer 是 针对 写 优化 。 


在 本 地 计算 机 结构 组 成 里 ， 相 比 CPU 和 内 存 之 间 的 10 差距 ， 内 存 和 机 械 硬盘 的 1O 差 距 较为 明显 。 而 固态 硬盘 的 出 现 ， 无 论 IOPS 和 带宽 都 胜 过 机 械 硬 盘 ， 同 时 内 存 和 国 态 硬盘 的 IO 差距 较 机 械 硬 盘 小 。 
比较 内 存 、 国 态 硬 盘 和 机 械 硬 盘 的 每 GB 单位 成 本 ， 得 出 的 结果 是 内 存 > 固 态 硬 盘 > 机 械 硬 盘 。 在 这 个 成 本 和 技术 的 前 提 下 ， 有 不 少 工程 师 提出 : 能 否 通过 固态 硬盘 作为 机 械 式 硬盘 Cache/Buffer 实 现 数 据 组 
存 策略 呢 ? 


目前 有 较 多 的 开源 和 商业 存储 领域 软件 和 硬件 提供 这 种 分 级 缓存 /缓冲 机 制 。 例 如 ， 在 软件 方面 有 ZFS、LVM、Bcache、Flashcache、Enhanceio 和 Intel CAS; 在 硬件 方面 ，Intel 公 司 和 LSI 推 出 新 形 
态 的 RAID 阵 列 卡 ， 这 类 阵列 卡 配备 板 载 的 SSD 作 为 加 速 ， 外 部 通过 minSAS 连 接 外 部 硬盘 。 


上 面 介绍 了 缓冲 技术 的 基础 知识 及 背景 ， 下 面 我 们 来 介绍 Ceph 中 缓冲 技术 的 基本 实现 原理 。 


经 过 前 面 章 节 的 介绍 ， 大 家 了 解 到 数据 都 是 以 object 形 式 存放 在 Ceph 中 ， 这 些 object 数 据 都 是 存储 在 资源 池 中 (〈 即 pool) ， 而 组 成 pool 的 基本 单位 是 OSD， 因 此 充当 OSD 的 存储 介质 的 性 能 决定 了 整 
个 资源 池 的 最 终 性 能 。 存 储 介质 性 能 的 差异 ， 造 成 了 资源 池 性 能 的 最 终 差 异性 ， 因 此 使 用 SSD 固 态 硬盘 这 一 类 的 高 速 且 价 格 昂贵 的 存储 介质 组 成 高 性 能 资源 池 ， 使 用 SATA 机 械 硬 盘 这 一 类 低速 廉价 的 介质 组 
成 低速 高 容量 资源 地 ，Ceph 为 此 提出 了 缓冲 池 技术 ， 比 较 完美 地 平衡 了 性 能 和 成 本 的 关系 。 要 实现 缓冲 池 技术 ， 首 先 需要 将 整个 存储 系统 按照 存储 介质 的 性 能 分 为 前 端 高 速 缓冲 池 和 后 端 低速 存储 池 ， 使 
特定 算法 将 数据 写 入 和 读 取 流程 进行 适当 的 调整 ， 将 访问 次 数 比较 频繁 的 热 数据 缓存 储 在 前 端 高 速 缓冲 池 中 〈 对 应 热 数据 上 浮 ) ， 而 访问 量 比较 低 的 冷 数据 则 存储 在 后 端 低速 存储 池 中 “( 冷 数据 下 沉 ) ， 从 
而 实现 提高 读 写 性 能 的 目的 ， 如 图 11-1 所 示 。 
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图 11-1 缓冲 池 原 理 


介绍 了 基本 的 缓冲 资源 池 原 理 之 后 ， 还 需要 向 读者 介绍 Ceph 中 提供 的 两 种 不 同类 型 的 缓冲 资源 池 策 略 模式 。 


1) 写 回 模式 : 当 用 户 配置 了 写 回 模式 ， 所 有 来 自 客户 端的 写 入 请 求 都 会 在 抵达 前 端 高 速 缓冲 池 后 收 到 ACK 确 认 ， 之 后 由 高 速 缓冲 池 按照 一 定 的 策略 将 数据 写 入 后 端 低速 存储 池 ， 完 成 数据 的 最 终 写 入 。 
在 这 个 模式 下 ， 前 端 高 速 缓冲 池 充 当 整 个 写 入 操作 的 前 端 缓存 。 当 客户 端 需要 读 取 数 据 时 ， 读 取 请 求 先 到 达 高 速 缓冲 地， 之 后 高 速 缓冲 池 从 低速 存储 池 中 加 载 相应 数据 ， 加 载 完毕 再 由 高 速 缓冲 池 返 回 客 
端 所 需 的 数据 。 当 客户 端 请 求 相同 的 数据 ， 则 直接 由 高 速 缓冲 池 返 回 之 前 已 经 加 载 的 数据 ， 如 果 数 据 长 时 间 没有 被 访问 ， 则 会 从 高 速 缓存 池 清 除 。 这 个 模式 比较 适合 数据 经 常 发 生变 更 ， 又 需要 经 常 被 访问 
的 情况 。 


2) 读 取 转 发 模式 : 这 个 模式 下 读 写 操作 都 在 前 端 高 速 缓冲 池 进行 ， 如 果 客 户 端 需要 读 取 的 数据 不 在 高 速 缓冲 池 中 ， 则 读 取 请 求 会 被 转发 到 后 端 。 这 个 模式 一 般 用 于 高 速 缓冲 池 容 量 已 经 被 耗 尽 ， 而 又 无 
法 做 扩容 的 情况 。 
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11.1 ”缓冲 池 原 理 


缓冲 (Cache， 为 便于 读者 理解 ， 本 文 直接 使 用 Cache) 技术 是 为 了 协调 吞吐 速度 相差 较 大 的 设备 之 问 数据 传送 而 采用 的 技术 。 


传统 上 ，Cache 为 了 缓和 CPU 和 1O 设 备 速度 不 匹配 的 矛盾 ， 提 高 CPU 和 1O 设 备 的 并 行 性 而 存在 的 ， 在 现代 操作 系统 中 ， 几 乎 所 有 的 19 设 备 在 与 CPU 交换 数据 时 都 用 了 Cache。 所 以 ， 在 计算 机 组 成 里 ， 
每 个 部 件 的 设计 都 可 以 看 到 Cache 的 影子 。 


例如 ，CPU 的 L1 Cache, L2 Cache 和 L3 Cache， 甚 至 还 有 L4 Cache (IBM Power8) 。 文 件 系统 会 设计 页 面 缓存 (Page Cache) ， 而 硬盘 内 部 也 会 设计 易 失 性 缓存 ， 一 般 容量 为 16/32/64MB。 


既然 提 及 Cache， 也 需要 说 明 一 下 缓冲 (英文 Buffer， 同 理 ， 本 文 直接 使 用 Buffer) 。 为 了 让 大 家 区 分 Cache 和 Buffer 概 念 ， 我 们 仔细 分 析 一 下 。 


Cache 的 设计 原理 是 把 读 取 过 的 数据 保存 起 来 ， 如 果 在 以 后 的 操作 中 重新 读 取 时 则 命中 (找到 需要 的 数据 ) ， 就 不 要 去 读 较 慢 的 设备 ， 若 没有 命中 就 读 较 慢 的 设备 。Cache 的 目标 是 把 频繁 读 取 的 数据 
进行 组 织 ， 并 把 这 些 内 容 放 在 最 容易 找到 的 位 置 ， 而 把 不 再 读 的 内 容 不 断 往 后 排 ， 直 至 从 Cache 中 删除 。 实 际 上 ， 读 者 会 想到 ，Cache 就 是 优先 存放 “ 热 数据 ”， 其 性 能 指标 是 “命中 率 ”。 


Buffer 的 设计 原理 是 把 分 散 的 写 数 据 内 容 集 中 进行 ， 按 照 一 定 周期 写 到 目标 设备 。 典 型 的 应 用 场景 是 磁盘 写 ， 通 过 Buffer 机 制 ， 写 数据 时 候 减少 磁盘 碎片 和 硬盘 的 反复 寻 道 过 程 ， 从 而 提高 系统 的 性 
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我 们 可 以 暂且 认为 Cache 是 针对 读 优化 ， 而 Buffer 是 针对 写 优化 。 


在 本 地 计算 机 结构 组 成 里 ， 相 比 CPU 和 内 存 之 间 的 IO 差距 ， 内 存 和 机 械 硬盘 的 1O 差 距 较为 明显 。 而 固态 硬盘 的 出 现 ， 无 论 IOPS 和 带宽 都 胜 过 机 械 硬 盘 ， 同 时 内 存 和 固态 硬盘 的 IO 差距 较 机 械 硬盘 小 。 
比较 内 存 、 固 态 硬盘 和 机 械 硬盘 的 每 GB 单 位 成 本 ， 得 出 的 结果 是 内 存 > 固 态 硬盘 > 机 械 硬 盘 。 在 这 个 成 本 和 技术 的 前 提 下 ， 有 不 少 工程 师 提出 : 能 和 否 通过 固态 硬盘 作为 机 械 式 硬 盘 Cache/Buffer 实 现 数据 缓 


存 策略 呢 ? 


目前 有 较 多 的 开源 和 商业 存储 领域 软件 和 硬件 提供 这 种 分 级 缓存 /缓冲 机 制 。 例 如 ， 在 软件 方面 有 ZFS、LVM、Bcache、Flashcache、Enhanceio 和 Intel CAS; 在 硬件 方面 ，Intel 公 司 和 LSI 推 + 
态 的 RAID 阵 列 卡 ， 这 类 阵列 卡 配备 板 载 的 SSD 作 为 加 速 ， 外 部 通过 minSAS 连 接 外 部 硬盘 。 


新 形 


上 面 介绍 了 缓冲 技术 的 基础 知识 及 背景 ， 下 面 我 们 来 介绍 Ceph 中 缓冲 技术 的 基本 实现 原理 。 


经 过 前 面 章节 的 介绍 ， 大 家 了 解 到 数据 都 是 以 object 形 式 存放 在 Ceph 中 ， 这 些 object 数 据 都 是 存储 在 资源 池 中 ( 即 pool) ， 而 组 成 pool 的 基本 单位 是 OSD， 因 此 充当 OSD 的 存储 介质 的 性 能 决定 了 整 
个 资源 池 的 最 终 性 能 。 存 储 介 质 性 能 ， 造 成 了 资源 池 性 能 的 最 终 差异 性 ， 因 此 使 用 SSD 固 


态 硬盘 这 一 类 的 高 速 且 价格 昂贵 的 存储 介质 组 成 高 性 能 资源 池 ， 使 用 SATA 机 械 硬盘 这 一 类 低速 廉价 的 介质 组 
成 低速 高 容量 资源 池 ，Ceph 为 此 提出 了 缓冲 池 技术 ， 比 较 完美 地 平衡 了 性 能 和 成 本 的 关系 。 要 实现 缓冲 池 技术 ， 首 先 需要 将 整个 存储 系统 按照 存储 介质 的 性 能 分 为 前 端 高 速 缓冲 池 和 后 端 低速 存储 池 ， 使 
特定 算法 将 数据 写 入 和 读 取 流程 进行 适当 的 调整 ， 将 访问 次 数 比较 频繁 的 热 数据 缓存 储 在 前 端 高 速 缓冲 池 中 〈 对 应 热 数据 上 浮 ) ， 而 访问 量 比较 低 的 冷 数据 则 存储 在 后 端 低速 存储 池 中 “( 冷 数据 下 沉 ) ， 从 
而 实现 提高 读 写 性 能 的 目的 ， 如 图 11-1 所 示 。 
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图 11-1 缓冲 池 原 理 


介绍 了 基本 的 缓冲 资源 池 原 理 之 后 ， 还 需要 向 读者 介绍 Ceph 中 提供 的 两 种 不 同类 型 的 缓冲 资源 池 策 略 模式 。 


1) 写 回 模式 : 当 用 户 配置 了 写 回 模式 ， 所 有 来 自 客户 端的 写 入 请 求 都 会 在 抵达 前 端 高 速 缓冲 池 后 收 到 ACK 确 认 ， 之 后 由 高 速 缓冲 池 按照 一 定 的 策略 将 数据 写 入 后 端 低速 存储 池 ， 完 成 数据 的 最 终 写 入 。 
在 这 个 模式 下 ， 前 端 高 速 缓冲 池 充 当 整 个 写 入 操作 的 前 端 缓存 。 当 客户 端 需要 读 取 数 据 时 ， 读 取 请 求 先 到 达 高 速 缓冲 池 ， 之 后 高 速 缓冲 池 从 低速 存储 池 中 加 载 相应 数据 ， 加 载 完毕 再 由 高 速 缓冲 池 返 回 客户 
端 所 需 的 数据 。 当 客户 端 请 求 相同 的 数据 ， 则 直接 由 高 速 缓冲 池 返 回 之 前 已 经 加 载 的 数据 ， 如 果 数据 长 时 间 没有 被 访问 ， 则 会 从 高 速 缓存 池 清 除 。 这 个 模式 比较 适合 数据 经 常 发 生变 更 ， 又 需要 经 常 被 访问 
的 情况 。 


2) 读 取 转 发 模式 : 这 个 模式 下 读 写 操作 都 在 前 端 高 速 缓冲 池 进行 ， 如 果 客 户 端 需要 读 取 的 数据 不 在 高 速 缓冲 池 中 ， 则 读 取 请 求 会 被 转发 到 后 端 。 这 个 模式 一 般 用 于 高 速 缓冲 池 容 量 已 经 被 耗 尽 ， 而 又 无 
法 做 扩容 的 情况 。 


11.2 ”缓冲 池 部 署 


自从 0.80 版 本 开始 ，Ceph 加 入 缓冲 池 技 术 。 在 当前 固态 硬盘 每 1OPSs 性 价 比 占 优 ， 而 机 械 硬 盘 每 GB 容 量 更 具 性 价 比 ， 根 据 业 务 系统 数据 读 写 的 局 部 性 ， 可 以 通过 缓冲 池 技 术 把 SSD 存 储 池 作为 HDD 存 储 
池 的 前 端 高 速 缓冲 池 。 


11.3. ” 纠 删 码 原理 


纠 删 码 (Erasure Coding, EC) 是 一 种 编码 容错 技术 ， 最 早 是 在 通信 行业 解决 部 分 数据 在 传输 中 的 损耗 问题 。 其 基本 原理 就 是 把 传输 的 信号 分 段 ， 加 入 一 定 的 校 验 再 让 各 段 间 发 生 相 互 关 联 ， 即 使 在 传 
输 过 程 中 丢失 部 分 信号 ， 接 收 端 仍然 能 通过 算法 将 完整 的 信息 计算 出 来 。 在 数据 存储 中 ， 纠 删 码 将 数据 分 割 成 片段 ， 把 宛 余 数据 块 扩展 和 编码 ， 并 将 其 存储 在 不 同 的 位 置 ， 比 如 磁盘 、 存 储 节点 或 者 其 他 地 


理 位 置 。 
如 果 需 要 严格 区 分 ， 实 际 上 按照 误 码 控制 的 不 同 功能 ， 可 分 为 检 错 、 纠 错 和 纠 删 3 种 类 型 。 


检 错 码 仅 具备 识别 错 码 功 能 而 无 纠正 错 码 功能 


纠 错 码 不 仅 具 备 识别 错 码 功能 ， 同 时 具备 纠正 错 码 功能 。 
变量 k 代 表 原 始 数 据 或 符号 的 值 。 变 量 m 代 表 故 障 后 添加 的 提供 保 


从 纠 删 码 基本 的 形态 看 ， 它 是 k 个 数据 块 +m 个 校 验 块 的 结构 ， 其 中 k 和 m 值 可 以 按照 一 定 的 规则 设 定 ， 可 以 用 公式 : n=k+m 来 表示 
居 块 可 以 通过 计算 剩余 存储 块 上 的 数据 得 到 ， 整 体 数 据 不 会 丢失 。 
EOSD 中 调 


护 的 额外 或 元 余 符号 的 值 。 变 量 n 代 表 纠 删 码 过 程 后 创建 的 符号 的 总 值 。 当 小 于 m 个 存储 块 (数据 块 或 校 验 块 ) 损坏 的 情况 下 ， 整 体 数 
下 面 以 k=2，m=1 为 例 ， 为 大 家 介绍 一 下 如 何以 纠 删 码 的 形式 将 一 个 名 称 为 cat;jpg 的 对 象 存放 在 Ceph 中 ， 假 定 该 对 象 的 内 容 为 ABCDEFGH。 客 户 端 在 将 catjpg 上 传 到 Ceph 以 后 ， 会 在 3 
11-2 中 的 条 带 分 片 1 (内 容 为 ABCD) 和 条 带 分 片 2 (内 容 为 EFFGH) ， 之 后 再 计算 出 另外 一 个 校 验 条 带 分 片 3 (内 容 为 
图 11-2 所 示 。 
其 他 关联 的 OSD 发 起 读 取 请 求 ， 比 如 主 OSD 是 图 中 的 OSD1， 当 


纠 删 码 则 不 仅 具 备 识别 错 码 和 纠正 错 码 的 功能 ， 而 且 当 错 码 超过 纠正 范围 时 ， 还 可 把 无 法 纠 错 的 信息 删除 。 


图 


相应 的 纠 删 码 算法 对 数据 进行 编码 计算 : 将 原来 的 ABCDEFGH 拆 分 成 两 个 分 片 ， 对 应 
面 ， 完 成 对 这 个 对 象 的 存储 操作 。 整 个 存储 过 程 如 


WXYZ) 。 按 照 crushmap 所 指定 的 规则 ， 将 这 3 个 分 片 随机 分 布 在 3 个 不 同 的 OSD 上 
pg 为 例 。 客 户 端 在 发 起 读 取 cat.jpg 请 求 以 后 ， 这 个 对 象 所 在 PG 的 主 OSD 会 向 其 
条 带 分 片 ， 此 时 OSD1 作 为 主 OSD 会 对 OSD1 和 OSD3 的 数据 分 片 做 


应 请 求 ， 导 致 最 终 只 能 获取 到 OSD1 (内 容 为 ABCD) 和 OSD3 (WXYZ) BS 
b 新 的 catjpg 内 容 (ABCDEFGH) ， 最 终 将 该 结果 返回 给 客户 端 。 整 个 过 程 如 图 11-3 所 示 。 


ABCDEFGH 


encode(2,1) 


居 ， 同 样 还 是 以 catj 


下 面 再 看 一 下 如 何 使 用 纠 删 码 读 取 数 拉 
请 求 发 送 到 了 OSD2 和 OSD3， 此 时 刚好 OSD2 出 现 故 障 无 法 回 
纠 删 码 解码 操作 ， 计 算出 OSD2 上 面 的 分 片 内 容 (BDEFGH) ， 之 后 本 


EHEH 


对 象 名 称 
对 象 内 容 


对 象 名 称 
分 片 序号 


图 11-2 ”在 ceph 中 利用 纠 删 码 写 入 对 象 数据 


对 象 名 称 
对 象 内 容 


ABCDEFGH 


decode(2,1) 


cat.jpg 
2 
EFGH 


OSD 1 OSD 2 OSD 3 


图 11-3 在 Ceph 中 利用 纠 删 码 读 取 对 象 数据 


分 片 序号 


虽然 纠 删 码 能 够 提供 和 副本 相近 的 数据 可 靠 性 ， 并 降低 宛 余 数据 的 开销 ， 整 体 上 能 提高 存储 设备 的 可 用 空间 。 但 是 ， 纠 删 码 所 带 来 的 额外 开销 主要 是 大 量 计算 和 网 络 高 负载 ， 优 点 同时 伴随 缺点 。 特 别 
是 在 一 个 硬盘 出 现 故 障 的 情况 下 ， 重 建 数据 非常 耗费 CPU 资源 ， 而 且 计 算 一 个 数据 块 时 需要 读 出 大 量 数据 并 通过 网 络 传输 。 相 比 副本 数据 恢复 ， 纠 删 码 数据 恢复 时 给 网 络 带 来 巨大 的 负担 。 因 此 ， 使 用 纠 删 


码 对 硬件 的 设备 性 能 是 一 个 较 大 的 考验 ， 这 点 需要 注意 。 另 外 ， 需 要 注意 的 是 ， 使 用 纠 删 码 所 建立 的 存储 资源 池 无 法 新 建 RBD 块 设备 。 


在 前 面 章节 介绍 中 ，Ceph 安 装 后 默认 有 Default Rule， 这 个 Rule 默 认 是 在 Host 层 级 进行 三 副本 读 写 。 副 本 技术 带 来 的 优点 是 高 可 靠 性 、 优 异 的 读 写 性 能 和 快速 的 副本 恢复 。 然 而 ， 副 本 技术 带 来 的 成 本 
压力 是 较 高 的 ， 特 别 是 三 副本 数据 情景 下 ， 每 TB 数据 的 成 本 是 硬盘 裸 容 量 3 倍 以 上 (包括 节点 CPU 和 内 存 均 摊 开销 ) 。 纠 删 码 具 备 与 副本 相近 的 高 可 用 特性 ， 而 且 降 低 了 宛 余数 据 的 开销 ， 同 时 带 来 了 大 量 
计算 和 网 络 高 负载 。 以 存储 100GB 数 据 为 例 ， 对 比 三 副本 和 k+ m=2+1 两 种 类 型 所 占用 的 存储 容量 ， 向 大 家 简单 介绍 一 下 纠 删 码 的 容量 优势 。 


表 11-1 容量 占用 情况 对 比 


3 副本 存储 容量 x 副本 数 = 所 需 容量 100 x 3 = 300GB 


存储 容量 x (K/(K+M)) = 所 需 容量 100 x (2/(2+1)) = 66.7GB 


http://blog.sina.com.cn/s/blog 57f61b490102viq9.html, 


http://docs.ceph.com/docs/master/architecture/£erasure-coding, 


11.4 _ 纠 删 码 应 用 实践 


11.4.1 使 用 Jerasure 插 件 配置 纠 删 码 


Jerasure (http://jerasure.org/) 是 面向 存储 应 用 纠 删 码 算法 库 的 一 个 开源 实现 ， 该 项 目 是 由 美国 田纳西 大 学 诺 克 斯 维尔 分 校 研究 员 James S.Plank, Scott Simmerman 和 Catherine D.Schuman 共 同 
开发 的 。Jerasure 在 GNU LGPL 下 发 布 。 


Jerasure 库 设计 目标 是 快速 、 灵 活 和 模块 化 ， 支 持 横 向 模式 (Horizontal mode) 的 纠 删 码 。 


Jerasure 库 是 Ceph 最 早 支持 的 纠 删 码 库 ， 在 0.78 版 本 引入 ， 是 Ceph 默 认 的 纠 删 码 库 。Ceph 使 用 Jerasure 库 的 RS 纠 错 算法 。Firefly 是 第 一 个 支持 纠 删 码 的 长 期 支持 版 (Long Term Support, LTS) 。 
Ceph 提 供 的 默认 纠 删 码 配置 如 下 。 


ceph osd erasure-code-profile get default 
directory-/usr/lib64/ceph/erasure-code 
m=1 

plugin=jerasure 

technique=reed_sol_van 


其 中 ，k=2 代 表 数 据 块 为 2，m=1 代 表 校 验 块 为 1。“k=2，m=1” 相 当 于 3 块 硬盘 组 成 的 RAID5。 在 前 面 提 到 的 CRUSH 里 面 ， 默 认 情况 下 数据 的 分 布 是 以 Host 为 单位 ， 相 同 条 带 的 数据 块 不 会 放置 到 相 
同 的 存储 节点 。 在 这 个 限制 下 ，“k=2，m=1” 至 少 需要 3 个 存储 节点 。 


从 容量 上 计算 ， 三 副本 的 有 效 容量 为 33.33%， 而 “k=2，m=1” 的 纠 删 码 场景 下 有 效 容量 为 66.66%， 若 配置 为 “k=5，m=2” 则 有 效 容量 为 71.43%。 相 比 副本 机 制 ， 纠 出 码 提高 了 有 效 的 存储 容量 。 


创建 测试 的 纠 删 码 存储 池 ， 如 下 。 


[root@ceph-mon-1 ~]# ceph osd pool create ec-pooll 64 64 erasure 

pool 'ec-pooll' created 

ceph osd dump 

pool 22 'ec-pooll' erasure size 3 min size 2 crush ruleset 3 object hash rjenkins pg num 64 pgp num 64 last change 920 flags hashpspool stripe width 4096 


其 中 size=3 就 是 k+ m 的 值 ， 而 min_size=2 则 为 k 的 值 。 以 下 测试 一 下 纠 删 码 存储 池 。 


[root@ceph-mon-1 ~]# echo "ABCDEFGHI1234567890" | rados --pool ec-pooll put filel - 
[root(ceph-mon-1 ~]# rados --pool ec-pooll get filel - 

ABCDEFGHI1234567890 

[rootéceph-mon-1 ~]# 


根据 之 前 讲述 ， 在 创建 纠 删 码 存储 池 时 ， 如 果 不 指定 纠 删 码 配置 ， 使 用 默认 的 设 定 条 件 。 用 户 也 可 以 根据 实际 需求 定义 纠 删 码 配置 文件 ， 设 定 k 和 m 的 值 。 


[root@ceph-mon-1 ~]# ceph osd erasure-code-profile set my-profilel k=3 m-1 ruleset-failure-domain-rack 
[root(ceph-mon-1 ~]# ceph osd erasure-code-profile get my-profilel 
directory-/usr/lib64/ceph/erasure-code 

k-3 

m-l 

plugin-jerasure 

ruleset-failure-domain-rack 

technique-reed sol van 

[rootüceph-mon-1 ~]# ceph osd pool create ec-pool2 64 64 erasure my-profilel 

pool 'ec-pool2' created 

[root(ceph-mon-1 ~]# echo "ABCDEFGHI1234567890" | rados --pool ec-pool2 put file2 - 
[root(ceph-mon-1 ~]# rados --pool ec-pool2 get file2 - 

ABCDEFGHI1234567890 

[rootéceph-mon-1 ~]# 


其 中 ，ruleset-failure-domain=rack 表 示 相 同 条 带 下 的 数据 不 会 存放 到 同一 个 rack 里 。 


Ceph 使 用 纠 删 码 在 进行 数据 存储 时 候 ， 需 要 更 多 的 额外 资源 。 所 以 ， 相 比 副本 而 言 ， 纠 删 码 存储 池 缺 少 了 一 些 功能 特性 ， 例 如 原子 写 操作 (Partial Writes) 。 通 过 配合 使 用 缓冲 池 技术 ， 可 以 克服 这 


* http://docs.ceph.com/docs/master/rados/operations/erasure-code/#creating-a-sample-erasure-coded-pool o 
* http://docs.ceph.com/docs/master/rados/operations/pools/ 。 


* http://docs.ceph.com/docs/master/architecture / ferasure-codings 


11.5 ”本 章 小结 


本 章 重点 向 读者 介绍 了 缓冲 池 和 纠 删 码 两 种 关键 技术 ， 从 理论 到 实践 尽 可 能 让 读者 在 短 时 间 内 了 解 和 掌握 这 两 大 关键 技术 。 加 上 作者 自身 的 知识 和 技术 水 平 有 限 ， 这 两 大 技术 在 实际 应 用 中 并 未 有 较 大 
规模 的 生产 系统 部 署 ， 究 其 原因 ， 主 要 是 这 两 个 技术 目前 成 熟 度 不 够 ， 在 一 些 应 用 过 程 中 遇 上 的 Bug 较 多 ， 从 作者 的 经 验 来 看 ， 偏 向 运 维 而 研发 能 力 较 弱 的 技术 团队 不 建议 大 规模 应 用 到 生产 环境 ， 如 果 必 
须要 用 的 话 ， 请 务必 做 好 生产 上 线 前 的 各 项 测试 ， 避 免 踩 坑 。 本 章 介 绍 的 两 大 技术 标志 着 Ceph 作 为 一 个 开源 存储 解决 方案 逐步 走向 成 熟 ， 在 开源 的 力量 的 推动 下 Ceph 在 功能 上 逐步 减 小 和 同类 商用 产品 的 
差距 ， 虽 然 在 短期 内 这 一 类 的 新 技术 或 多 或 少 会 存在 一 些 问题 ， 但 长 远 来 看 ，Ceph 的 明天 会 更 好 。 


第 12 章 ”生产 环境 应 用 案例 


随 着 云 计 算 OpenStack 的 大 力 发 展 ，Ceph 也 得 到 了 飞速 的 发 展 ， 向 着 云 计 算 的 方向 靠拢 ，Ceph FS 文件 系统 已 经 不 再 是 开发 重点 ， 但 仍 未 放弃 ， 在 Jewel 版 本 中 被 正式 对 外 宣传 可 以 进入 生产 环境 。 


12.1 Ceph FS 应 用 案例 


Ceph FS 是 一 个 支持 POSIX 接 口 的 文件 系统 存储 类 型 。 目 前 Ceph FS 的 发 展 比较 滞后 ， 主 要 是 由 于 Ceph FS 技术 不 成 熟 ， 另 一 方面 由 于 云 计 算 大 潮 的 突起 ， 比 Ceph FS 起 步 晚 的 Ceph RBD 和 Ceph 
Radosgw 发 展 反而 更 加 活跃 ， 社 区 的 发 展 重点 也 大 多 放 在 了 后 两 者 上 。 


由 于 Ceph FS 的 不 成 熟 ，Ceph 官 方 也 有 很 明显 的 说 明 ， 这 一 重要 原因 使 其 不 能 满足 生产 环境 的 要 求 ， 不 能 得 到 广泛 应 用 。 但 是 ， 在 近期 发 布 的 Jewel 版 本 中 被 正式 对 外 宣传 可 以 进入 生产 环境 。 


Ceph FS 主要 对 接 于 传统 的 应 用 ， 例 如 直接 mount 到 服务 器 作为 文件 系统 使 用 ， 另 外 就 是 用 来 对 接 Hadoop 和 对 接 OpenStack Manila 项 目 。 


对 接 Hadoop 在 第 6 章 中 已 经 讲 过 ， 这 里 主要 讲解 Ceph FS 如 何 导出 成 NFS 来 使 用 ，Ceph FS 如 何在 Windows 环 境 下 使 用 以 及 如 何 对 接 OpenStack Manila 项 目 。 


12.2 ”RBD 应 用 案例 


RBD 是 RADOS BLOCK DEVICE 的 简称 。RBD 是 Ceph 分 布 式 存储 中 最 常用 的 存储 类 型 。 


块 是 一 个 有 序列 字 节 ， 普 通 的 一 个 块 大 小 为 512 字 节 。 基 于 块 的 存储 是 最 常见 的 存储 方式 ， 比 如 常见 的 硬盘 、 软 盘 和 CD 光盘 等 ， 都 是 存储 数据 最 简单 快捷 的 设备 。 


Ceph 块 设备 是 一 种 精简 置 备 模式 ， 可 以 扩展 大 小 并 且 数 据 是 以 条 带 化 的 方式 存储 在 一 个 集群 中 的 多 个 OSD 中 ，RBD 具 有 快照 、 多 副本 、 克 隆 和 一 致 性 功能 。 


Ceph 也 逐渐 成 为 了 Openstack 的 默认 后 端 存储 ， 下 面 主要 讲解 RBD 对 接 OpenStack 的 案例 。 


12.3 Object RGW 应 用 案例 : 读 写 分 离 方案 


下 面 介绍 一 些 基于 RGW 的 对 象 存储 应 用 案例 ， 帮 助 读者 了 解 对 象 存储 在 互联 网 的 重点 应 用 案例 。 


1. 构 架 介 绍 


利用 Nginx 作 为 前 端 入 口 ， 通 过 简单 配置 ， 轻 松 实现 客户 端 访问 的 读 写 分 离 : 将 来 自 客户 端的 PUT/POST 一 类 请 求 通过 proxy 方 式 交 由 后 端的 nginx-write 集 群 ， 而 来 自 客户 端的 GET/HEAD 一 类 请 求 则 
由 nginx-read 集 群 进行 处 理 ， 如 果 12-6 所 示 。 


Keepalived 


nginx write 1...N nginx read 1 ...N 


图 12-6” 读 写 分 离 前 端 架构 
2.Nginx 配 置 


下 面 是 Nginx 配 置 代码 。 


upstream write zone { 
zone write zone 64k; 
server 192.168.1.2:80; 
server 192.168.1.3:80; 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15953/0EBPS/Text/. . http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
} 
upstream read zone { 
zone read zone 64k; 
server 192.168.1.4:80; 
server 192.168.1.5:80; 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15953/0EBPS/Text/. . http: / /www.hzcourse.com/resource/readBook?path-/openresources/teach ek 
} 
server { 
listen 80; 
server name s3.ceph.work *.s3.ceph.work; 
location / ( 
if ($request method = "(PUT|POST)")( 
proxy pass http://write zone; 
} 
proxy_pass http://read zone; 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15953/OEBPS/Text/..http: //www.hzcourse.com/resource/readBook?path-/openresources/ 
P P pi E mp. p 


处 的 Nginx 可 以 通过 Keepalived 来 实现 高 可 用 ， 后 端 可 以 通过 nginx-upstream-check-module 一 类 的 模块 提高 系统 可 用 性 。 


笔者 这 里 只 是 抛砖引玉 ， 使 用 了 最 简单 的 配置 ， 前 端 入 


相关 模块 下 载 地 址 : https:;//github.com/yaoweibin/nginx upstream check module, 


124 基于 HLs 的 视频 点 播 方案 


1.HLS 简 介 


HLSII] 是 Apple 公 司 推出 的 一 套 基于 HTTP 的 流 媒体 实时 传输 协议 ， 全 称 是 HTTP Live Streaming， 同 时 能 够 跨 多 种 平台 和 操作 系统 ， 在 视频 分 享 、 在 线 教育 等 领域 得 到 了 广泛 的 应 用 。 本 文 不 对 HLS 做 
过 多 介绍 ， 只 是 简单 介绍 如 何 将 一 个 普通 的 MP4 文 件 转换 成 HLS 所 支持 的 格式 ， 并 进行 在 线 视频 播放 。 


1) 客户 端 将 mp4 文 件 转 码 成 m3u8 格 式 ， 上 传 到 RADOSGW 中 ， 并 设置 相应 的 访问 权限 ， 如 


12-7 所 示 。 


[ 


2) 完成 转 码 后 ， 客 户 端 通过 访问 Radosgw 服 务 ， 实 现 对 HLS 视 频 的 在 线 播放 ， 如 图 13-8 所 示 。 


1. FEM 


client mp4->m3u8 


RADOSGW 


图 12-7 ”HLS 转 码 流程 
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HIIP 


RADOSCG 
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12-8 客户 端 访问 流程 


2. 安 装 准备 


1) client 庙 需要 安装 fmpeg 工 具 ， 进 行 mp4 一 m3u8 的 转 码 ， 或 者 使 用 其 他 转 码 工具 。ffmpeg 的 安装 请 参考 网 上 资料 。 


比如 s3cmd， 或 者 其 他 上 传 方式 。 


2) dlient 端 需要 有 S3 上 传 工 


3. 具 体 步骤 


1) 将 mp4 文 件 转 码 成 m3u8。 


mkdir m3u8 
cd m3u8 
ffmpeg -i demo.mp4 -c:v libx264 -c:a aac -strict -2 -hls list size 0 -hls time 5 -f hls demo.m3u8 


上 面 命令 的 意思 是 以 5s 为 间隔 ， 将 原来 的 mp4 文 件 转 码 成 demo.m3u8 和 一 些 ts 文件 ， 读 者 可 以 根据 实际 情况 调整 参数 。 


2) 上 传 m3u8 文 件 。 


@ 上 传 本 地 文件 到 名 字 为 hls 的 Bucket 中 。 


s3cmd put m3u8 s3://hls --preserve 


@ 设 置 文件 访问 权限 。 


S3cmd setacl s3://hls/m3u8 --acl-public --preserve 


3) 播放 测试 。 


Window 系 统 下 使 用 VLC 一 类 支持 HLS 的 播放 器 打开 http://s3.ceph.work/hls/m3u8/demo.m3u8 进 行 播放 ， 或 者 Apple MAC/IOS 系 统 可 以 使 用 Safari 浏 览 器 直接 进行 播放 ， 其 他 系统 需要 加 载 相关 浏 
览 器 插件 。 只 有 MAC 或 者 IOS 系 统 的 Safari 浏 览 器 原生 支持 HLSs 格 式 ， 其 他 环境 需要 添加 相应 插件 。 最 后 推荐 几 款 HLS 播 放 器 及 插件 ， 如 下 。 


* VLC: http:/ /www.videolan.org/vlc/ o 
* jwplayer: http:/ /www.jwplayer.com/ o 
* videojs: https://github.com/videojs/videojs-contrib-hls o 


* sewise-player: https:/ /github.com/jackzhangl 204 /sewise-playere 


[1] HLS 介 绍 : https:/ /developer.apple.com/streaming/ 。 


12.5 ”本章 小 结 


本 章 从 生产 环境 使 用 案例 来 让 读者 了 解 到 生产 环境 中 应 该 如 何 使 用 Ceph。 对 于 RGW 应 用 ， 通 过 介绍 一 个 简单 的 基于 Naginx 的 读 写 分 离 模型 ， 让 读者 了 解 到 基于 通用 的 HTTP 协 议 调 优 手段 同样 适用 于 
RGW 对 象 存 储 场景 ， 同 时 通过 RGW 结 合 HLS 协 议 ， 让 读者 了 解 到 目前 互联 网 比较 热门 的 点 播 、 直 播 一 类 平台 的 基础 应 用 场景 。 


第 13 章 ”Ceph 运 维 与 排 错 


13.1 ”Ceph 集 群 运 维 


本 章 我 们 简单 介绍 Ceph 的 日 常 运 维 。Ceph 运 维 是 保证 Ceph 集 群 和 整个 云 平 台 正常 运行 与 稳定 性 不 可 或 缺 的 一 部 分 ， 在 笔者 看 来 是 很 重要 的 ， 国 内 大 部 分 公司 都 是 以 用 户 的 角度 来 使 用 Ceph， 所 以 
Ceph 运 维 成 为 目前 Ceph 的 几 大 难题 之 一 。 首 先 从 Ceph 集 群 的 扩展 、 维 护 与 监控 3 方面 来 讲解 一 下 Ceph 日 常 运 维 的 一 些 经 验 。 
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13.2 ”Ceph 常 见 错误 与 解决 方案 


本 节 将 对 在 Ceph 日 常 维护 过 程 中 常见 的 错误 进行 简要 的 总 结 与 分 享 。 


13.3 EM 


通过 本 章 学 习 ， 大 家 可 以 了 解 Ceph 在 日 常 运 维 过 程 的 一 些 注意 点 ， 比 如 ， 如 何 更 换 硬盘 ， 使 线 上 环境 受到 的 影响 达到 最 小 等 。 本 章 所 讲 只 是 一 些 普遍 存在 的 问题 与 解决 方法 。Ceph 是 一 个 庞大 的 集群 
系统 ， 更 多 经 验 的 积累 需要 读者 在 使 用 过 程 中 好 好 总 结 。 


